Python wiki-dump-parser包_程序模块 - PyPI

一个简单但快速的python脚本，它读取wiki的xml转储并将处理后的数据输出到csv文件中。

wiki-dump-parser的Python项目详细描述

一个简单但快速的python脚本，它读取wiki和将处理过的数据输出到csv文件中。

All revisions history of a mediawiki wiki can be backed up as an XML file, known as a XML dump. 此文件是Wiki中所有编辑的记录，其中有关日期、页面、作者和完整内容的相应数据在编辑中。

通常我们只需要编辑有关日期、作者的元数据因此，我们不需要编辑的内容迄今为止最长的数据。

这个脚本将这个很长的xml转储文件转换成更小的csv文件最容易阅读和使用。它负责

用法

使用pip安装软件包：

pip install wiki_dump_parser

然后，直接从命令行使用它：

python -m wiki_dump_parser <dump.xml>

或者来自python代码：

importwiki_dump_parserasparserparser.xml_to_csv('dump.xml')

应使用“”作为转义字符加载输出csv文件用于引用字符串。加载输出文件“dump.csv”的示例使用pandas生成的脚本将是：

df=pd.read_csv('dump.csv',quotechar='|',index_col=False)df['timestamp']=pd.to_datetime(df['timestamp'],format='%Y-%m-%dT%H:%M:%SZ')

依赖关系

Python3

是的，没别的了。

如何获取wiki历史记录转储

有几种方法可以获得wiki转储：

如果您有权访问服务器，请按照instructions in the mediawiki docs。
对于wikia wikis和many other domains，你可以使用我们内部开发的脚本来完成这个任务任务。它使用简单，速度很快。
wikimedia项目wiki：属于wikimedia的wiki project，您已经有一个定期更新的repo，其中包含所有转储这里：http://dumps.wikimedia.org。Select your target wiki from the list和下载完整的编辑历史记录转储并解压缩。
对于其他wiki，如自托管wiki，应使用 wikiteam的dumpgenerator.py脚本。你有一个简单的教程in their wiki。它的使用非常简单，脚本也得到了很好的维护。请记住使用–xml选项下载完整的历史记录转储。

欢迎加入QQ群-->： 979659372

wiki-dump-parser 2.0.1

wiki-dump-parser的Python项目详细描述

用法

依赖关系

如何获取wiki历史记录转储

推荐PyPI第三方库

rosbag2-api

odoo12-addon-purchase-allowed-product

itemset-mining

ntfsdump

xialib

openlibrary-client-mek

mypy-boto3-signer

id-fer

aoc-to-markdown

segurata

monk-pytorch-cuda92-test

TOPSIS-ANALYSIS-kriti

odoo13-addon-intrastat-product-generic

odoo12-addon-l10n-it-dichiarazione-intento

unmass

导航栏

项目链接

标签

维护者

最新PyPI项目

最新Python常见问题

wiki-dump-parser 2.0.1

wiki-dump-parser的Python项目详细描述

用法

依赖关系

如何获取wiki历史记录转储

推荐PyPI第三方库

rosbag2-api

odoo12-addon-purchase-allowed-product

itemset-mining

ntfsdump

xialib

openlibrary-client-mek

mypy-boto3-signer

id-fer

aoc-to-markdown

segurata

monk-pytorch-cuda92-test

TOPSIS-ANALYSIS-kriti

odoo13-addon-intrastat-product-generic

odoo12-addon-l10n-it-dichiarazione-intento

unmass

导 航 栏

项目 链接

标 签

维护者

最新PyPI项目

最新Python常见问题

导航栏

项目链接

标签