DBLP从python中的巨大xml文件获取wwhomepage信息

2024-05-15 17:28:28 发布

您现在位置:Python中文网/ 问答频道 /正文

我是xml方面的新手,我需要在dblp中获取每个作者的主页信息,但是xml文件非常大,大约2GB。以下是我需要的文件部分:

<www key="homepages/d/StephanDiehl">
<author>Stephan Diehl</author>
<title>Home Page</title>
<url>http://www.st.uni-trier.de/~diehl/</url>
</www>

如何仅从这个xml文件中获取作者姓名和主页?我在网上找到的其他方法也不能正常工作。任何帮助都将不胜感激。你知道吗

谢谢!你知道吗


Tags: 文件key信息urltitlewww主页作者
1条回答
网友
1楼 · 发布于 2024-05-15 17:28:28

您可以使用XML element tree提取您感兴趣的数据。findall函数将搜索指定的标记作为根的子级。你知道吗

import xml.etree.ElementTree as ET

str = """<www key="homepages/d/StephanDiehl">
<author>Stephan Diehl</author>
<title>Home Page</title>
<url>http://www.st.uni-trier.de/~diehl/</url>
</www>"""

root = ET.fromstring(str)
for element in root.findall('author'):
        print element.text

for element in root.findall('url'):
        print element.text

相关问题 更多 >