在循环中使用TEI XML解析器

from bs4 import BeautifulSoup import os.path import glob tei_docs = "../input/tei-xml-files" def read_tei(tei_docs): os.chdir(tei_docs) for i in glob.glob(os.path.join(tei_docs, "*.xml")): read_file(i)

1条回答

网友

1楼 · 发布于 2024-05-15 05:19:13

代码中有几个问题，包括缩进错误。我还编写了一个脚本，用漂亮的汤从XML文件中读取标题，如下所示：

#!/usr/bin/env python
# coding: utf-8

from bs4 import BeautifulSoup
import os
from os.path import dirname, join
directory=("C:\\Users\\mbarg\\Documents\\corpus") # location of XML files on local drive

results=[] # create result list
for infile in os.listdir(directory):
    filename=join(directory, infile)
    indata=open(filename,"r", encoding="utf-8", errors="ignore") # UTF-8 encoding errors are ignored
    contents = indata.read()
    soup = BeautifulSoup(contents,'xml')
    titles = soup.find_all('title') # get item titles
    for title in titles:
        print(title.get_text())
        results.append(title.get_text())
print(results) # result list is shown on screen

相关问题更多 >

编程相关推荐

热门问题

热门文章

在循环中使用TEI XML解析器

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >