用于从纽约时报文章检索注释的包,这些文章还用作NYT文章搜索的API包装器,并执行现已弃用的NYT社区API的功能
nytcomments的Python项目详细描述
该软件包包括三个主要功能,用于执行三项不同的任务,包括检索《纽约时报》的评论和文章,以便将数据集用于数据科学/机器学习项目:
- 主函数get_dataset返回两个数据帧-每个数据帧一个用于项目及其注释。检索可以基于多个可选参数来定制,例如文章的特定时间线、搜索关键字、基于许多选项的过滤查询,如一天的周、文章的词数、源等,对评论或文章数量或两者的最大限制,根据最新或最旧的文章按时间顺序对文章进行排序,选择禁止或激活进程的输出日志,选择将数据保存为两个csv文件,等等。此函数只返回对评论打开的文章及其评论。
- 函数get_articles可以用作nyt文章搜索api的api包装器。它返回已清理和预处理的项目数据,作为准备使用的pandas数据框(带有一个将其存储在csv文件中的选项)。检索可以使用与上面相同的选项进行自定义,与上面的函数不同,它返回满足搜索条件的所有文章。
- 函数get_comments检索给定url的nyt文章的注释。它可以用作纽约时报社区api中comments by url选项的替代品,该选项现在已被弃用,并且只返回由于unresolved issue原因而被选为编辑器选择的注释。与上述两个函数不同,此函数不使用NYTAPI进行检索。
依赖关系
- Python3.4+
- 熊猫
- 请求
用法
fromnytcomments.nytcommentsimportget_datasetarticles_df,comments_df=get_dataset(ARTICLE_API_KEY,page_lower=0,page_upper=2)
请参阅tutorial here以了解三个函数get_dataset、get_comments和get_articles的说明以及有关函数参数的详细信息。函数get_dataset和get_articles需要使用nyt api密钥,该密钥可以通过在NYT developers’ site注册获得,而get_comments则可以在没有api密钥的情况下使用。您必须同意Terms of Use才能让nyt文章搜索api使用密钥。
注:纽约时报文章在2017年1月-5月和2018年1月-4月发表的评论数据集为available on Kaggle,截至2018年4月28日为top among the 20 featured datsets。
确认
- 用于从函数get_comments中的给定项目检索注释的url取自blog by Neal Caren。
- NYT文章搜索API用于文章搜索。