一个简单但快速的python脚本,它读取wiki的xml转储并将处理后的数据输出到csv文件中。
wiki-dump-parser的Python项目详细描述
一个简单但快速的python脚本,它读取wiki和 将处理过的数据输出到csv文件中。
All revisions history of a mediawiki wiki can be backed up as an XML file, known as a XML dump. 此文件是Wiki中所有编辑的记录,其中 有关日期、页面、作者和完整内容的相应数据 在编辑中。
通常我们只需要编辑有关日期、作者的元数据 因此,我们不需要编辑的内容 迄今为止最长的数据。
这个脚本将这个很长的xml转储文件转换成更小的csv文件 最容易阅读和使用。它负责
用法
使用pip安装软件包:
pip install wiki_dump_parser
然后,直接从命令行使用它:
python -m wiki_dump_parser <dump.xml>
或者来自python代码:
importwiki_dump_parserasparserparser.xml_to_csv('dump.xml')
应使用“”作为转义字符加载输出csv文件 用于引用字符串。加载输出文件“dump.csv”的示例 使用pandas生成的脚本将是:
df=pd.read_csv('dump.csv',quotechar='|',index_col=False)df['timestamp']=pd.to_datetime(df['timestamp'],format='%Y-%m-%dT%H:%M:%SZ')
依赖关系
- Python3
是的,没别的了。
如何获取wiki历史记录转储
有几种方法可以获得wiki转储:
- 如果您有权访问服务器,请按照instructions in the mediawiki docs。
- 对于wikia wikis和many other domains, 你可以使用我们内部开发的脚本来完成这个任务 任务。它使用简单,速度很快。
- wikimedia项目wiki:属于wikimedia的wiki project,您已经有一个定期更新的repo,其中包含所有转储 这里:http://dumps.wikimedia.org。Select your target wiki from the list和 下载完整的编辑历史记录转储并解压缩。
- 对于其他wiki,如自托管wiki,应使用 wikiteam的dumpgenerator.py脚本。你有一个简单的教程in their wiki。 它的使用非常简单,脚本也得到了很好的维护。 请记住使用–xml选项下载完整的历史记录转储。