从维基百科数据库转储生成纯文本
我找到了一段Python脚本(在这里:Wikipedia Extractor),它可以从(英文)维基百科数据库备份中生成纯文本。
当我使用这个命令(就像脚本页面上写的那样):
$ python enwiki-latest-pages-articles.xml WikiExtractor.py -b 500K -o extracted
我遇到了这个错误:
文件 "enwiki-latest-pages-articles.xml",第1行 < mediawiki xmlns="http://www.mediawiki.org/xml/export-0.8/" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://www.mediawiki.org/xml/export-0.8/http://www.mediawiki.org/xml/export-0.8.xsd" version="0.8" xml:lang="en">
^
SyntaxError: invalid syntax
我是在Windows 7上使用Python 2.7.6和Cygwin来执行这个脚本的。
我希望如果有人已经使用过这个脚本或者对Python有经验,可以帮我解决这个错误。
提前谢谢大家!
1 个回答
17
第一个传给 python
的参数应该是脚本的名字。
你可能需要把 xml
和 py
的文件名调换一下:
$ python WikiExtractor.py enwiki-latest-pages-articles.xml -b 500K -o extracted