基于类别在wikipediaxml转储中搜索文章

2024-05-16 15:51:52 发布

您现在位置:Python中文网/ 问答频道 /正文

我想找到或设计一个解析器,可以找到维基百科的XML转储,但我找不到任何,也不知道如何去做。在

我尝试过使用wikiextractor,但不幸的是,它没有根据用户定义的类别提取文章,而是提取包含关键字的文章。在

在这篇文章的“无政府主义”一文中,我可以在“维基百科”这篇文章中找到“无政府主义”的例子:

[[Category:Anarchism| ]]
[[Category:Political culture]]
[[Category:Political ideologies]]
[[Category:Social theories]]
[[Category:Anti-fascism]]
[[Category:Anti-capitalism]]
[[Category:Far-left politics]]

例如,无政府主义xml的一部分:

^{pr2}$

我想在wikipediaxml转储中搜索包含在特定类别中的所有文章,例如,[[Category:Anti-fascism]],并生成XML文件。然后我将清理XML文件,以便可以使用gensim word2vec模型训练它。在

请建议我如何做,我只有基本的编程经验,我需要做这在Python。在

谢谢你


Tags: 文件用户解析器定义文章关键字xml类别