如何将一个维基百科的备份文件处理成只包含自生成的文章ID和文章内容的格式,其他的都不要?
这个文章ID是用来做参考的,而内容则是纯文本,不包含网址和引用。
这里有一些链接,你可以点击查看相关内容:
维基百科数据库下载的结构
看起来很清楚。
导入XML数据的手册
看起来也很清楚。
Pywikipediabot的介绍
这似乎是你需要的代码。