使用feedparser获取原始XML数据

2 投票
1 回答
1217 浏览
提问于 2025-04-17 05:17

我正在尝试使用feedparser来获取一些特定的信息,但我也想获取每个条目的原始XML内容(也就是RSS中的元素和Atom中的元素),但是我不知道怎么做。显然,我可以手动解析XML,但这样做不太优雅,还需要分别处理RSS和Atom,我想这样可能会导致与feedparser在处理格式不正确的源时不同步。有没有更好的方法呢?

谢谢!

1 个回答

2

我是feedparser的当前开发者。目前,有一种方法可以获取相关信息,就是对feedparser._FeedParserMixin进行“猴子补丁”(或者编辑本地的feedparser.py文件)。你需要修改的方法有:

  • feedparser._FeedParserMixin.unknown_starttag
  • feedparser._FeedParserMixin.unknown_endtag

在每个方法的开头,你可以插入一个回调函数,这样当feedparser遇到元素及其属性时,就能捕捉到这些信息。

撰写回答