从维基百科转储中提取语料库

wiki-dump-reader的Python项目详细描述


Wiki转储阅读器

TravisCoverage

从wiki转储中提取语料库。

安装

pip install wiki-dump-reader

用法

应该先下载转储文件*wiki-*-pages-articles.xml。然后您可以迭代并从文本中获取干净的文本:

fromwiki_dump_readerimportCleaner,iteratecleaner=Cleaner()fortitle,textiniterate('*wiki-*-pages-articles.xml'):text=cleaner.clean_text(text)cleaned_text,links=cleaner.build_links(text)

只要忽略links如果你不需要它们:

cleaned_text, _ = cleaner.build_links(text)

请参见examples以获得直观的感觉。

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java Eclipse内存分析器(MAT):不显示当前正在运行的进程   java Apache Velocity:转义字符不能作为关联数组键用于PHP   不截断零的java格式十进制输出   在另一个类文件中调用时返回空值的java getter   java集合获取连接   java解析json使用Gson登录系统应用程序强制关闭   java DelferredResult带有两个请求的ajax请求   java可降低功耗,同时应使用无线   java BoxLayout无法共享错误?   java如何使用计时器制作闹钟   java使用OAuth2保护RESTWeb服务:一般原则   java在一个jframe上显示多个图像和按钮