将您的RSS归档到SQLite:

rssarchive的Python项目详细描述


蜂巢

rssarchive是一个用于将多个RSS源提取到SQLite数据库中的库。它具有通过newspaper3k库抓取全文的功能。在

快速入门

要安装rssarchive,只需与pip一起使用:

pip install rssarchive

要使用rssarchive,可以通过控制台或作为库调用:

使用via控制台只需调用:

^{pr2}$

用作库:

#!/usr/bin/env pythonimportrssarchiveasranewra=ra.RssArchive(CONFIG_TEST_MODE=True,CONFIG_FULL_TEXT_MODE=False)newra.batch_save_rss()

运行batch_save_rss()命令时,库将在当前目录中创建两个文件

  • 在rsslist.cv:这是包含某些RSS源的默认文件
  • 在rssarchive.sqlite:这是获取新闻的SQLite文件

代码完成任务后,您可以使用SQLiteBrowserapp查看/编辑SQLite文件。在

您可以为自己的源修改rsslist.csv文件并重新运行。在

构造类中的参数

当您运行上面的代码时,您可能会注意到

newra=ra.RssArchive(CONFIG_TEST_MODE=True,CONFIG_FULL_TEXT_MODE=False)

施工。此处定义了所有参数:

CONFIG_DEFAULT_TABLE_NAME='选项卡标题'

配置SQLITEDB URL=“rssarchive.sqlite“

CONFIG_RSS_LIST=“RSS_列表.csv“

CONFIG\u SINGLE_RSS_SOURCE_URL=“https://www.sabah.com.tr/rss/anasayfa.xml

CONFIG_EASY_DEBUG=真

CONFIG_TEST_VAR=“suatatan”

CONFIG_TEST_MODE=假

CONFIG_FULL_TEXT_MODE=真

Amgong这些参数只有两个是关键的:

CONFIG_EASY_DEBUG:如果为True,则可以显示代码中的所有消息;如果为false,则无法显示

CONFIG_FULL_TEXT_MODE:如果为True,库将获取每个URL的全文(需要时间);如果为False,则库将只获取ch RSS

CONFIG_TEST_MODE:如果为True,则库只获取两个示例资源;如果为false,则代码将处理链接中的所有RSS源(请在实际项目中保持为True)

动机

这个库是在turnusol.org项目中开发的开源库。这个项目是一个社会企业,用于检测土耳其语中的仇恨言论和假新闻。如果您想贡献这个库或我们的项目,请通过turnusol.org与我们联系

打包命令

python setup.py sdist bdist_wheel

python -m twine upload --skip-existing --repository testpypi dist/* -u suatatan -p password

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java关闭应用程序按钮Listener   Java中的多线程同步在Java示例中的思考   java如何查看Tomcat正在使用/访问的JAR?   java My代码在调用垃圾收集器后不会终止   多线程Java连接线程池和connectionfactory?   java在运行时修改JAR文件   java Android:使用光标时引发IllegaleException   在Netbeans中测试不可执行库的java?   泛型在参数上强制子类Java类型   spring Java:继承与依赖注入“自动连线”   javascript如何解析这个xml元素   java打印特定序列中的数组   带有ProcessingTimeSessionWindow的java Apache Flink自定义触发器   java如何配置消息驱动的Bean应用程序和Glassfish来使用来自远程MessageBroker的消息?