使用Biopython Bio Entrez pars解析PubMed中心XML

用户

我尝试使用Biopython的bioentrez解析函数解析PubMed中心XML文件。到目前为止,我一直在努力:

from Bio import Entrez
for xmlfile in glob.glob ('samplepmcxml.xml'):
   print xmlfile
   fh = open (xmlfile, "r")
   read_xml (fh, outfp)
   fh.close()

def read_xml (handle, outh):
   records = Entrez.parse(handle)
   for record in records:
      print record

我得到以下错误:

^{pr2}$

我已经下载了建筑文章.dtd文件。是否需要安装其他DTD文件来描述PMC文件的模式?有人成功地使用Bio Entrez函数或其他方法来解析PMC文章吗?在

谢谢你的帮助!在


已被浏览了1957次
更新日期: 2020-10-28 19:28:05
1 个回答
fefe Tyson

使用另一个解析器,如minidom

from xml.dom import minidom

data = minidom.parse("pmc_full.xml")

现在,根据您要提取的数据,深入XML并享受乐趣:

^{pr2}$
评论 - 2020年8月7日 23:15

最新Python问答

推荐Python问答