从维基百科数据库转储生成纯文本

6 投票
1 回答
9906 浏览
提问于 2025-04-18 00:45

我找到了一段Python脚本(在这里:Wikipedia Extractor),它可以从(英文)维基百科数据库备份中生成纯文本。

当我使用这个命令(就像脚本页面上写的那样):

$ python enwiki-latest-pages-articles.xml WikiExtractor.py -b 500K -o extracted

我遇到了这个错误:

文件 "enwiki-latest-pages-articles.xml",第1行 < mediawiki xmlns="http://www.mediawiki.org/xml/export-0.8/" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://www.mediawiki.org/xml/export-0.8/http://www.mediawiki.org/xml/export-0.8.xsd" version="0.8" xml:lang="en">

^
SyntaxError: invalid syntax

我是在Windows 7上使用Python 2.7.6和Cygwin来执行这个脚本的。

我希望如果有人已经使用过这个脚本或者对Python有经验,可以帮我解决这个错误。

提前谢谢大家!

1 个回答

17

第一个传给 python 的参数应该是脚本的名字。

你可能需要把 xmlpy 的文件名调换一下:

$ python WikiExtractor.py enwiki-latest-pages-articles.xml -b 500K -o extracted

撰写回答