把结构带到关于arxiv的论文中。
citextract的Python项目详细描述
城市摘录
CiteXtract-给arxiv的论文带来结构。
开始
要安装citextract,请运行以下命令:
pip install citextract
提取引用
然后,可以使用refxtract模型从文本中提取引用:
fromcitextract.models.refxtractimportRefXtractorrefxtractor=RefXtractor().load()text="""This is a test sentence.\n[1] Jacobs, K. 2019. This is a test title. In Proceedings of Some Journal."""refs=refxtractor(text)print(refs)
它提供以下输出:
['[1] Jacobs, K. 2019. This is a test title. In Proceedings of Some Journal.']
在此基础上,训练神经网络提取参考边界,并利用这些边界提取参考。
提取标题
使用找到的引用,可以使用titlextract模型提取标题:
fromcitextract.models.titlextractimportTitleXtractortitlextractor=TitleXtractor().load()ref="""[1] Jacobs, K. 2019. This is a test title. In Proceedings of Some Journal."""title=titlextractor(ref)print(title)
它提供以下输出:
'This is a test title.'
这里,经过训练的神经网络从给定的参考文献中提取标题。
将arxiv pdf转换为文本
有一个实用程序可以使用arxiv url并将其转换为文本:
fromcitextract.utils.pdfimportconvert_pdf_url_to_textpdf_url='https://arxiv.org/pdf/some_file.pdf'text=convert_pdf_url_to_text(pdf_url)print(text)