从维基百科转储中提取语料库
wiki-dump-reader的Python项目详细描述
Wiki转储阅读器
从wiki转储中提取语料库。
安装
pip install wiki-dump-reader
用法
应该先下载转储文件*wiki-*-pages-articles.xml
。然后您可以迭代并从文本中获取干净的文本:
fromwiki_dump_readerimportCleaner,iteratecleaner=Cleaner()fortitle,textiniterate('*wiki-*-pages-articles.xml'):text=cleaner.clean_text(text)cleaned_text,links=cleaner.build_links(text)
只要忽略links
如果你不需要它们:
cleaned_text, _ = cleaner.build_links(text)
请参见examples以获得直观的感觉。