使用通用供稿解析器聚合多个供稿

0 投票

2 回答

1325 浏览

提问于 2025-04-15 14:41

我在使用Universal Feed Parser处理单一数据源的解析时运气不错，但现在我需要同时处理多个数据源，并生成按时间顺序交错的输出（不是RSS格式）。看起来我需要遍历这些网址，把每个条目放进一个字典列表里，然后根据条目的时间戳进行排序，最后取出前面的部分。这听起来是可行的，但在资源上会比较消耗（所以我会尽量缓存数据以节省资源）。

我只是想知道有没有更简单的方法，比如有没有现成的库可以和feedparser一起使用，来做一些简单的数据汇总。有没有示例代码？或者有什么需要注意的地方吗？谢谢。

数据聚合数据缓存字典列表示例代码时间戳排序数据源处理通用供稿解析器

2 个回答

这里已经有建议可以把数据存储到数据库里，比如可以用 bsddb.btopen() 或者其他关系型数据库管理系统（RDBMS）。

你可以看看 heapq.merge() 和 bisect.insort()，或者如果你想在内存中合并数据的话，可以使用一些B树的实现。

回答于 2025-04-15 由 Python大师

分享举报

你可以把这些信息放进一个数据库里，然后从这个数据库生成一个新的信息流。

可以看看两个基于feedparser的RSS聚合工具：Planet Feed Aggregator和FeedJack（基于Django的），或者至少了解一下它们是怎么解决这个问题的。

回答于 2025-04-15 由 Python大师

分享举报

使用通用供稿解析器聚合多个供稿

2 个回答

撰写回答