我发现this篇关于解析TEI XML的文章在处理单个XML文件时非常有用。但是,我有一个完整的目录。我的dir循环没有执行,我不知道为什么
from bs4 import BeautifulSoup
import os.path
import glob
tei_docs = "../input/tei-xml-files"
def read_tei(tei_docs):
os.chdir(tei_docs)
for i in glob.glob(os.path.join(tei_docs, "*.xml")):
read_file(i)
def read_file(i):
with open(i, "r") as tei:
soup = BeautifulSoup(tei, 'lxml')
soup.title.getText()
我得到输出
名称错误
回溯(最近一次呼叫最后一次)
在
----->;1.title.getText()
NameError:未定义名称“soup”
代码中有几个问题,包括缩进错误。我还编写了一个脚本,用漂亮的汤从XML文件中读取标题,如下所示:
相关问题 更多 >
编程相关推荐