把结构带到关于arxiv的论文中。

citextract的Python项目详细描述


城市摘录

Read the DocsCircleCIDocker Cloud Build StatusPyPI - Python Version

CiteXtract-给arxiv的论文带来结构。

开始

要安装citextract,请运行以下命令:

pip install citextract

提取引用

然后,可以使用refxtract模型从文本中提取引用:

fromcitextract.models.refxtractimportRefXtractorrefxtractor=RefXtractor().load()text="""This is a test sentence.\n[1] Jacobs, K. 2019. This is a test title. In Proceedings of Some Journal."""refs=refxtractor(text)print(refs)

它提供以下输出:

['[1] Jacobs, K. 2019. This is a test title. In Proceedings of Some Journal.']

在此基础上,训练神经网络提取参考边界,并利用这些边界提取参考。

提取标题

使用找到的引用,可以使用titlextract模型提取标题:

fromcitextract.models.titlextractimportTitleXtractortitlextractor=TitleXtractor().load()ref="""[1] Jacobs, K. 2019. This is a test title. In Proceedings of Some Journal."""title=titlextractor(ref)print(title)

它提供以下输出:

'This is a test title.'

这里,经过训练的神经网络从给定的参考文献中提取标题。

将arxiv pdf转换为文本

有一个实用程序可以使用arxiv url并将其转换为文本:

fromcitextract.utils.pdfimportconvert_pdf_url_to_textpdf_url='https://arxiv.org/pdf/some_file.pdf'text=convert_pdf_url_to_text(pdf_url)print(text)

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java无法使用JAXB配置Moxy   java如何让我的简单Swing telnet客户端正确显示字符?   java中从可运行线程调用主线程的多线程处理   java数据源。EBJ3会话bean中的getConnection()   使用java和正则表达式从xml文件提取值时出现问题   java定制Jersy胡须Mvc   在Java中,“限制并发”是什么意思?   java有没有更干净的方法可以在这里使用Optional,而不在三个地方返回“NA”?   java Tomcat启动,然后崩溃,除非我打电话   java理解客户机和服务器   java时间戳将在视图对象>实体转换期间丢失   如何在java中返回布尔值(基元)?   java使用spring mvc设置日志记录,希望仅对我的代码进行跟踪/调试   用Jackson解析嵌套对象