我想找到或设计一个解析器,可以找到维基百科的XML转储,但我找不到任何,也不知道如何去做。在
我尝试过使用wikiextractor,但不幸的是,它没有根据用户定义的类别提取文章,而是提取包含关键字的文章。在
在这篇文章的“无政府主义”一文中,我可以在“维基百科”这篇文章中找到“无政府主义”的例子:
[[Category:Anarchism| ]]
[[Category:Political culture]]
[[Category:Political ideologies]]
[[Category:Social theories]]
[[Category:Anti-fascism]]
[[Category:Anti-capitalism]]
[[Category:Far-left politics]]
例如,无政府主义xml的一部分:
^{pr2}$我想在wikipediaxml转储中搜索包含在特定类别中的所有文章,例如,[[Category:Anti-fascism]]
,并生成XML文件。然后我将清理XML文件,以便可以使用gensim word2vec模型训练它。在
请建议我如何做,我只有基本的编程经验,我需要做这在Python。在
谢谢你
目前没有回答
相关问题 更多 >
编程相关推荐