解析维基数据库转储为格式的合适方法是什么?

0 投票
1 回答
526 浏览
提问于 2025-04-16 18:24

如何将一个维基百科的备份文件处理成只包含自生成的文章ID和文章内容的格式,其他的都不要?

这个文章ID是用来做参考的,而内容则是纯文本,不包含网址和引用。

1 个回答

1

这里有一些链接,你可以点击查看相关内容:

维基百科数据库下载的结构

看起来很清楚。

导入XML数据的手册

看起来也很清楚。

Pywikipediabot的介绍

这似乎是你需要的代码。

撰写回答