用于从纽约时报文章检索注释的包,这些文章还用作NYT文章搜索的API包装器,并执行现已弃用的NYT社区API的功能

nytcomments的Python项目详细描述


该软件包包括三个主要功能,用于执行三项不同的任务,包括检索《纽约时报》的评论和文章,以便将数据集用于数据科学/机器学习项目:

  1. 主函数get_dataset返回两个数据帧-每个数据帧一个用于项目及其注释。检索可以基于多个可选参数来定制,例如文章的特定时间线、搜索关键字、基于许多选项的过滤查询,如一天的周、文章的词数、源等,对评论或文章数量或两者的最大限制,根据最新或最旧的文章按时间顺序对文章进行排序,选择禁止或激活进程的输出日志,选择将数据保存为两个csv文件,等等。此函数只返回对评论打开的文章及其评论。
  2. 函数get_articles可以用作nyt文章搜索api的api包装器。它返回已清理和预处理的项目数据,作为准备使用的pandas数据框(带有一个将其存储在csv文件中的选项)。检索可以使用与上面相同的选项进行自定义,与上面的函数不同,它返回满足搜索条件的所有文章。
  3. 函数get_comments检索给定url的nyt文章的注释。它可以用作纽约时报社区api中comments by url选项的替代品,该选项现在已被弃用,并且只返回由于unresolved issue原因而被选为编辑器选择的注释。与上述两个函数不同,此函数不使用NYTAPI进行检索。

依赖关系

  • Python3.4+
  • 熊猫
  • 请求

用法

fromnytcomments.nytcommentsimportget_datasetarticles_df,comments_df=get_dataset(ARTICLE_API_KEY,page_lower=0,page_upper=2)

请参阅tutorial here以了解三个函数get_datasetget_commentsget_articles的说明以及有关函数参数的详细信息。函数get_datasetget_articles需要使用nyt api密钥,该密钥可以通过在NYT developers’ site注册获得,而get_comments则可以在没有api密钥的情况下使用。您必须同意Terms of Use才能让nyt文章搜索api使用密钥。

注:纽约时报文章在2017年1月-5月和2018年1月-4月发表的评论数据集为available on Kaggle,截至2018年4月28日为top among the 20 featured datsets

确认

  • 用于从函数get_comments中的给定项目检索注释的url取自blog by Neal Caren
  • NYT文章搜索API用于文章搜索。

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
使用jaxb2annotateplugin和XJC工具的java自定义注释   java组织。xeustechnologies。jcl无法加载WstxInputFactory类   java JUnit在格式化字符串上比较失败   java Bukkit配置部分getKeys   如何关闭Java流?   java Struts2正则表达式配置   链式事务注释的java奇怪行为   java在两个JButton之间使用变量   java签署APK时内容会发生什么变化?   java LWJGL:Slick:3D世界中的绘图字体   如何分解Java数组?   在Java MySql中处理多个过滤器   java如何在Firebase数据库中跳过初始OnChildaded事件触发   java如何在PreviewView中使用CameraX?   在子类#中重写父类后访问父类原始方法的java已解决   java找不到类型的属性   游戏框架游戏!框架+Java