doi搜索和返回元数据
metadata-expander的Python项目详细描述
自动获取元数据条目
此存储库旨在作为从联机站点获取元数据的起点。
它将被集成到colli后端,用于协作文献管理。
安装
必须安装以下软件包:
Python3 美化组4 urllib语言库 python bibtexparser
在ubuntu下安装:
apt install python3 python3-bs4 python3-urllib3 python3-bibtexparser
或者,只需安装python3并通过pip从项目目录中执行其余操作:
pip install -r requirements.txt
添加更多站点。
如果没有特定站点的分析器,则可以在“站点”文件夹中创建它。
命名约定是,该文件中的文件名和类名必须是没有任何子域或顶级域的域名。
所以对于https://dl.acm.org/
来说,就是acm
sites/example.py中提供了一个示例
每个类都必须是landingPage
的子类,并且可以实现以下函数之一:
defgetBibTeX(self,link,soup):returnNonedefgetDict(self,link,soup):returnNone
在这两种情况下,参数都是doi解析器的登录页的url和被解析为beautifulsoup对象的页。
它们按其返回值分开。
getbibtex必须返回有效的bibtex条目或无。 getdict必须返回一个python字典,其中的字段名符合dublin核心标准。