news-please的Python项目详细描述
News Please是一个开源、易于使用的新闻爬虫程序,它可以从几乎任何新闻网站中提取结构化信息。它可以递归地跟踪内部超链接并读取rss提要以获取最新的和旧的存档文章。您只需要提供新闻网站的根url。此外,它的api允许开发人员在其软件中访问extract功能。News Please还实现了一个针对CommonCrawl.org提供的新闻存档优化的工作流,允许用户有效地抓取和提取新闻文章,包括各种过滤选项。
欢迎加入QQ群-->: 979659372
推荐PyPI第三方库