基于类别在wikipediaxml转储中搜索文章

2024-05-16 15:51:52 发布

您现在位置：Python中文网/ 问答频道 /正文

8520

网友

男 | 程序猿一只，喜欢编程写python代码。

我想找到或设计一个解析器，可以找到维基百科的XML转储，但我找不到任何，也不知道如何去做。在

我尝试过使用wikiextractor，但不幸的是，它没有根据用户定义的类别提取文章，而是提取包含关键字的文章。在

在这篇文章的“无政府主义”一文中，我可以在“维基百科”这篇文章中找到“无政府主义”的例子：

[[Category:Anarchism| ]]
[[Category:Political culture]]
[[Category:Political ideologies]]
[[Category:Social theories]]
[[Category:Anti-fascism]]
[[Category:Anti-capitalism]]
[[Category:Far-left politics]]

例如，无政府主义xml的一部分：

^{pr2}$

我想在wikipediaxml转储中搜索包含在特定类别中的所有文章，例如，[[Category:Anti-fascism]]，并生成XML文件。然后我将清理XML文件，以便可以使用gensim word2vec模型训练它。在

请建议我如何做，我只有基本的编程经验，我需要做这在Python。在

谢谢你

Tags：文件用户解析器定义文章关键字 xml 类别

0条回答

目前没有回答

基于类别在wikipediaxml转储中搜索文章

相关问题更多 >

编程相关推荐

热门问题

热门文章

基于类别在wikipediaxml转储中搜索文章

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >