如何使用Universal Feed Parser移除HTML标签?

3 投票
1 回答
1826 浏览
提问于 2025-04-15 11:22

文档里列出了默认允许和移除的标签:

http://www.feedparser.org/docs/html-sanitization.html

但是它没有说明你怎么可以指定想要移除的其他标签。

有没有办法用Universal Feed Parser来做到这一点,还是说你需要用自己的正则表达式或者像Beautiful Soup这样的工具进行进一步处理呢?

1 个回答

6

我简单看了一下代码,觉得没有办法直接覆盖它们。不过,你可以覆盖 feedparser._HTMLSanitizer.acceptable_elements,也就是在执行 feedparser.parse 之前,不会被删除的标签列表。

撰写回答