把结构带到关于arxiv的论文中。

citextract的Python项目详细描述


城市摘录

Read the DocsCircleCIDocker Cloud Build StatusPyPI - Python Version

CiteXtract-给arxiv的论文带来结构。

开始

要安装citextract,请运行以下命令:

pip install citextract

提取引用

然后,可以使用refxtract模型从文本中提取引用:

fromcitextract.models.refxtractimportRefXtractorrefxtractor=RefXtractor().load()text="""This is a test sentence.\n[1] Jacobs, K. 2019. This is a test title. In Proceedings of Some Journal."""refs=refxtractor(text)print(refs)

它提供以下输出:

['[1] Jacobs, K. 2019. This is a test title. In Proceedings of Some Journal.']

在此基础上,训练神经网络提取参考边界,并利用这些边界提取参考。

提取标题

使用找到的引用,可以使用titlextract模型提取标题:

fromcitextract.models.titlextractimportTitleXtractortitlextractor=TitleXtractor().load()ref="""[1] Jacobs, K. 2019. This is a test title. In Proceedings of Some Journal."""title=titlextractor(ref)print(title)

它提供以下输出:

'This is a test title.'

这里,经过训练的神经网络从给定的参考文献中提取标题。

将arxiv pdf转换为文本

有一个实用程序可以使用arxiv url并将其转换为文本:

fromcitextract.utils.pdfimportconvert_pdf_url_to_textpdf_url='https://arxiv.org/pdf/some_file.pdf'text=convert_pdf_url_to_text(pdf_url)print(text)

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java如何加速程序?(大量缓慢的mysql查询)   java非静态变量不能从静态上下文引用   Java使用TimerTask杀死外部进程   java Guice、Jetty、Jersey+Jackson BIG PLUS:Bean验证   找不到本机的java实现   java Primefaces推送:JBoss 7.2中部署时出错   java如何通过JDBC(mariaDB)检索所选行的主键值   java试图将通知文本提取到活动(解析)   java如何使用springdata在mongodb中创建全文搜索查询?   Java进程错误,无法运行程序   Lambda表达式和非类Java方法   java从静态最终变量初始值设定项获取记录器是否有效?   mysql如何导入java。sql.*使用JDK 10.0.2和Eclipse?   web服务java。网SocketException:cxf中打开的文件太多   限制java进程的网络带宽   aspectj用于记录方法开始/结束的Java特性   保持秩序的java ConcurrentMap   java SearchView带有两个片段的ViewPager   编码仅当字符串在Java中不是UTF8时才对其值进行编码   java如何处理Robotium中witten测试脚本中的第三方Web视图