支持mediawiki数据流处理的脚本和实用程序的集合。

mwstreaming的Python项目详细描述


流处理mediawiki数据的一组实用程序。

用法

^{tt1}$

^{tt2}$

数据处理实用程序

^{tt3}$
Generates token persistence statistics using revision JSON blobs with diff information.
^{tt4}$
Converts an XML dump to a stream of revision JSON blobs
^{tt5}$
Computes diffs directly from an XML dump
^{tt6}$
Computes and adds a “diff” field to a stream of revision JSON blobs
^{tt7}$
Mends diffs that were computed in chunks and out of order.
^{tt8}$
Aggregates a token persistence statistics to revision statistics
^{tt9}$
Converts a Wikihadoop-processed stream of XML pages to JSON blobs

一般公用设施

^{tt10}$
Converts a stream of JSON blobs to tab-separated values based a set of fieldnames.
^{tt11}$
Normalizes old versions of RevisionDocument json schemas to correspond to the most recent schema version.
^{tt12}$
Validates JSON against a provided schema.
^{tt13}$
Truncates the ‘text’ field of JSON blobs to a limited length in unicode characters. (addresses content dump vandalism issues) and adds a boolean ‘truncated’ field.

安装

^{tt14}$

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
使用freemarker(ftl模板)通过spring发送outlook电子邮件的java自定义表单   java Project Euler 17错误答案   java想澄清所有关于Android多屏幕尺寸支持的疑问吗?   如何使用Eclipse和Maven配置Java项目以连接到AmazonRDS   java如何在Java8中按流对映射对象按时间段求和?   我是Java新手,希望有人能帮我   java Spring boot,序列化和反序列化时Jackson Json问题   java扫雷器(不是算法,只是布局问题)   java找到一个字符[]的完全唯一排列吗?   java哪种CRC用于更改Desfire卡中的密钥   java如何修复越界索引错误?   java读取Excel数值单元格值   java如何正确构建“PUT方法”并执行“intern请求”?   java如何从XSD生成JAXB类?   java为什么要运行它?   Java,畸形异常   java Springsecurityldap:实例化InitialContextFactory com失败。太阳jndi。ldap。LDAPCTX工厂   解析Java无法读取文本文件   java在每个请求之前运行资源方法