如何使用Universal Feed Parser移除HTML标签?
文档里列出了默认允许和移除的标签:
http://www.feedparser.org/docs/html-sanitization.html
但是它没有说明你怎么可以指定想要移除的其他标签。
有没有办法用Universal Feed Parser来做到这一点,还是说你需要用自己的正则表达式或者像Beautiful Soup这样的工具进行进一步处理呢?
1 个回答
6
我简单看了一下代码,觉得没有办法直接覆盖它们。不过,你可以覆盖 feedparser._HTMLSanitizer.acceptable_elements
,也就是在执行 feedparser.parse
之前,不会被删除的标签列表。