一个简单但快速的python脚本,它读取wiki的xml转储并将处理后的数据输出到csv文件中。

wiki-dump-parser的Python项目详细描述


一个简单但快速的python脚本,它读取wiki和 将处理过的数据输出到csv文件中。

All revisions history of a mediawiki wiki can be backed up as an XML file, known as a XML dump. 此文件是Wiki中所有编辑的记录,其中 有关日期、页面、作者和完整内容的相应数据 在编辑中。

通常我们只需要编辑有关日期、作者的元数据 因此,我们不需要编辑的内容 迄今为止最长的数据。

这个脚本将这个很长的xml转储文件转换成更小的csv文件 最容易阅读和使用。它负责

用法

使用pip安装软件包:

pip install wiki_dump_parser

然后,直接从命令行使用它:

python -m wiki_dump_parser <dump.xml>

或者来自python代码:

importwiki_dump_parserasparserparser.xml_to_csv('dump.xml')

应使用“”作为转义字符加载输出csv文件 用于引用字符串。加载输出文件“dump.csv”的示例 使用pandas生成的脚本将是:

df=pd.read_csv('dump.csv',quotechar='|',index_col=False)df['timestamp']=pd.to_datetime(df['timestamp'],format='%Y-%m-%dT%H:%M:%SZ')

依赖关系

  • Python3

是的,没别的了。

如何获取wiki历史记录转储

有几种方法可以获得wiki转储:

  • 如果您有权访问服务器,请按照instructions in the mediawiki docs
  • 对于wikia wikismany other domains, 你可以使用我们内部开发的脚本来完成这个任务 任务。它使用简单,速度很快。
  • wikimedia项目wiki:属于wikimedia的wiki project,您已经有一个定期更新的repo,其中包含所有转储 这里:http://dumps.wikimedia.orgSelect your target wiki from the list和 下载完整的编辑历史记录转储并解压缩。
  • 对于其他wiki,如自托管wiki,应使用 wikiteam的dumpgenerator.py脚本。你有一个简单的教程in their wiki。 它的使用非常简单,脚本也得到了很好的维护。 请记住使用–xml选项下载完整的历史记录转储。

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java如何使用文件路径获取文件位置?   java XPath从某个元素后的元素获取文本   具有多个名称空间的JavaDOM   使用hibernate在表别名处出现java意外令牌错误   springdatajpa中的java交叉连接   在firebase中循环时使用java空指针   如何使用java驱动程序执行mongodb getShardDistribution()   swing Java GUI在另一个方法的新窗口中显示文本   java如何使用Google Guava为每个新地图条目设置不同的过期超时?   在视图寻呼机中将数据从活动传递到片段时,找不到id片段的java视图   Java 8 Lambda流筛选器更改值   java为什么在程序中不使用main方法时Eclipse不会显示错误。   java JavaFX文件选择器显示自定义选项   swing Java程序在MAC上未正确运行   java使用Twitter4j发布twitter线程   JMS请求访问被拒绝后,java jedis无法连接到redis   java GETSTATE weblogic命令花费的时间太长,有什么建议吗?   java如何将此代码转换为Racket/Scheme   java如何使用经度和纬度获取地址   java是我的Glassfish设置泄漏内存吗?