以下是Marathi Wikisource转储文件的一部分
我正试图提取与“我的书”匹配的标签的内容。 有什么容易做到的吗?Wikisouce是一个流行的数据源,我想一定有脚本/模块
<page>
<title>My book 1</title>
<ns>0</ns>
<id>413</id>
<revision>
<id>39062</id>
<parentid>1660</parentid>
<timestamp>2019-01-21T10:43:05Z</timestamp>
<contributor>
<username>Taiven2240</username>
<id>1373</id>
</contributor>
<minor />
<comment>मराठीकरण</comment>
<model>wikitext</model>
<format>text/x-wiki</format>
<text bytes="215367" xml:space="preserve">{{some Info
}}
<poem>
[[वर्ग:अध्यात्मिक]]
[[वर्ग:तपासणी करायचे साहित्य]]</text>
<sha1>kkx0i4d2tm0zehb5wumrgs60lhric2v</sha1>
</revision>
</page>
什么是bytes=“215367”
我从以下网站下载了此文件:
https://dumps.wikimedia.org/mrwikisource/20210601/mrwikisource-20210601-pages-meta-current.xml.bz2
一种简单但效率不高的方法是在bash命令行上使用
xmllint
,因为它是一个未压缩的300MB文件。易于在Windows和Cygwin上安装,默认情况下在Linux(和MacOs)上存在:-p。 一个简单的脚本,用于在单个过程中搜索title
标记上的两个不同字符串,并显示text
标记内容结果:
要获取
revision/text
标记,请使用:一行是
一行程序获得
title
和revision/text
相关问题 更多 >
编程相关推荐