将您的RSS归档到SQLite:

rssarchive的Python项目详细描述


蜂巢

rssarchive是一个用于将多个RSS源提取到SQLite数据库中的库。它具有通过newspaper3k库抓取全文的功能。在

快速入门

要安装rssarchive,只需与pip一起使用:

pip install rssarchive

要使用rssarchive,可以通过控制台或作为库调用:

使用via控制台只需调用:

^{pr2}$

用作库:

#!/usr/bin/env pythonimportrssarchiveasranewra=ra.RssArchive(CONFIG_TEST_MODE=True,CONFIG_FULL_TEXT_MODE=False)newra.batch_save_rss()

运行batch_save_rss()命令时,库将在当前目录中创建两个文件

  • 在rsslist.cv:这是包含某些RSS源的默认文件
  • 在rssarchive.sqlite:这是获取新闻的SQLite文件

代码完成任务后,您可以使用SQLiteBrowserapp查看/编辑SQLite文件。在

您可以为自己的源修改rsslist.csv文件并重新运行。在

构造类中的参数

当您运行上面的代码时,您可能会注意到

newra=ra.RssArchive(CONFIG_TEST_MODE=True,CONFIG_FULL_TEXT_MODE=False)

施工。此处定义了所有参数:

CONFIG_DEFAULT_TABLE_NAME='选项卡标题'

配置SQLITEDB URL=“rssarchive.sqlite“

CONFIG_RSS_LIST=“RSS_列表.csv“

CONFIG\u SINGLE_RSS_SOURCE_URL=“https://www.sabah.com.tr/rss/anasayfa.xml

CONFIG_EASY_DEBUG=真

CONFIG_TEST_VAR=“suatatan”

CONFIG_TEST_MODE=假

CONFIG_FULL_TEXT_MODE=真

Amgong这些参数只有两个是关键的:

CONFIG_EASY_DEBUG:如果为True,则可以显示代码中的所有消息;如果为false,则无法显示

CONFIG_FULL_TEXT_MODE:如果为True,库将获取每个URL的全文(需要时间);如果为False,则库将只获取ch RSS

CONFIG_TEST_MODE:如果为True,则库只获取两个示例资源;如果为false,则代码将处理链接中的所有RSS源(请在实际项目中保持为True)

动机

这个库是在turnusol.org项目中开发的开源库。这个项目是一个社会企业,用于检测土耳其语中的仇恨言论和假新闻。如果您想贡献这个库或我们的项目,请通过turnusol.org与我们联系

打包命令

python setup.py sdist bdist_wheel

python -m twine upload --skip-existing --repository testpypi dist/* -u suatatan -p password

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java Cassandra复制因子大于节点数   java J2EE JTA事务回滚不适用于OSE Glassfish 4.0(Build 89)   java spring安全预认证用户登录   org的java类文件。反应流。从RxJava编译示例时未找到Publisher?   java在使用dataFormat作为POJO通过Camel调用Web服务时无法设置SOAP标头   Javafx类的java静态实例   java如何防止一个部件在关闭时覆盖另一个部件的位置   sql server无法从我的java代码连接到数据库   java在JList(Swing)中显示带有的ArrayList   从Java中的CXF服务获取WSAddressing数据   使用资产文件夹进行java简单json解析(本地)   java LDAPException未绑定的无效凭据   JavaJSFspring部署到weblogic   JAVA中字符数组中的特定元素排列?   如果脚本位于不同的目录中,则ant不会使用exec标记运行Javashell脚本