从wikipediaxml转储中的选定文章中提取特定的字符串

<page> <title>Afrika</title> <ns>0</ns> <id>2</id> <revision> <id>1428708</id> <parentid>1391377</parentid> <timestamp>2016-03-06T14:00:12Z</timestamp> <contributor> <username>SpesBona</username> <id>2720</id> </contributor> <comment>Uitgebrei</comment> <model>wikitext</model> <format>text/x-wiki</format> <text xml:space="preserve"> '''Afrika''' is die wêreld se tweede grootste [[kontinent]] in sowel oppervlakte as bevolking. Saam met die eilande beslaan dit ongeveer 30,221,532km² wat 20,3% van die totale landoppervlakte van die [[aarde]] is en dit word bewoon deur meer as 1 miljard mense - ongeveer 'n sewende van die wêreldbevolking. </text> </revision>

2条回答

网友
1楼 · 编辑于 2024-05-23 20:19:48

使用这个Python代码将归档文件转换为单个文本文件，即Python代码链接 “https://svn.code.sf.net/p/apertium/svn/trunk/apertium-tools/WikiExtractor.py”
用法：
python3 WikiExtractor.py infn dump.xml.bz2
更多信息： http://wiki.apertium.org/wiki/Wikipedia_Extractor
或者你也可以从这里下载旧的维基百科档案：
http://kopiwiki.dsd.sztaki.hu/

网友
2楼 · 编辑于 2024-05-23 20:19:48

如果您有使用Python的经验，您应该使用beauthoulsoup库和lxml解析器来解析xml。它可以让你很容易和直观地浏览标签。 http://www2.hawaii.edu/~takebaya/cent110/xml_parse/xml_parse.html
为了处理大数据量，您可以将每个页面分隔成不同的文件，并使用glob将它们加载到Python中，一次解析一个文件。 Find all files in a directory with extension .txt in Python
对于最终的数据结构，mongodb听起来不错。如果要进行全文搜索，请记住构建文本索引。 https://docs.mongodb.com/manual/core/index-text/

相关问题更多 >

编程相关推荐

热门问题

热门文章