将您的RSS归档到SQLite:
rssarchive的Python项目详细描述
蜂巢
rssarchive
是一个用于将多个RSS源提取到SQLite数据库中的库。它具有通过newspaper3k
库抓取全文的功能。在
快速入门
要安装rssarchive
,只需与pip一起使用:
pip install rssarchive
要使用rssarchive
,可以通过控制台或作为库调用:
使用via控制台只需调用:
^{pr2}$用作库:
#!/usr/bin/env pythonimportrssarchiveasranewra=ra.RssArchive(CONFIG_TEST_MODE=True,CONFIG_FULL_TEXT_MODE=False)newra.batch_save_rss()
运行batch_save_rss()
命令时,库将在当前目录中创建两个文件
- 在rsslist.cv:这是包含某些RSS源的默认文件
- 在rssarchive.sqlite:这是获取新闻的SQLite文件
代码完成任务后,您可以使用SQLiteBrowserapp查看/编辑SQLite文件。在
您可以为自己的源修改rsslist.csv
文件并重新运行。在
构造类中的参数
当您运行上面的代码时,您可能会注意到
newra=ra.RssArchive(CONFIG_TEST_MODE=True,CONFIG_FULL_TEXT_MODE=False)
施工。此处定义了所有参数:
CONFIG_DEFAULT_TABLE_NAME='选项卡标题'
配置SQLITEDB URL=“rssarchive.sqlite“
CONFIG_RSS_LIST=“RSS_列表.csv“
CONFIG\u SINGLE_RSS_SOURCE_URL=“https://www.sabah.com.tr/rss/anasayfa.xml”
CONFIG_EASY_DEBUG=真
CONFIG_TEST_VAR=“suatatan”
CONFIG_TEST_MODE=假
CONFIG_FULL_TEXT_MODE=真
Amgong这些参数只有两个是关键的:
CONFIG_EASY_DEBUG:如果为True,则可以显示代码中的所有消息;如果为false,则无法显示
CONFIG_FULL_TEXT_MODE:如果为True,库将获取每个URL的全文(需要时间);如果为False,则库将只获取ch RSS
CONFIG_TEST_MODE:如果为True,则库只获取两个示例资源;如果为false,则代码将处理链接中的所有RSS源(请在实际项目中保持为True)
动机
这个库是在turnusol.org项目中开发的开源库。这个项目是一个社会企业,用于检测土耳其语中的仇恨言论和假新闻。如果您想贡献这个库或我们的项目,请通过turnusol.org与我们联系
打包命令
python setup.py sdist bdist_wheel
python -m twine upload --skip-existing --repository testpypi dist/* -u suatatan -p password
- 项目
标签: