有人解析过维基词典吗?
维基词典是一个包含多种语言的维基字典,里面还有翻译的内容。我对解析这个词典并玩弄这些数据很感兴趣,有人之前做过类似的事情吗?有没有什么库可以使用?(最好是Python的。)
11 个回答
23
我曾经下载过一个维基词典的数据库,想要收集一些斯拉夫语言的单词和定义。我选择使用elementtree这个工具来处理这个xml格式的文件,而不是去抓取网站上的内容。你可以直接下载维基媒体提供的维基词典的xml数据库。可以去维基媒体下载页面,找到英文维基词典的数据库(enwiktionary),然后选择最新的数据库文件。你可能会需要那个名为pages-articles.xml.bz2的文件,这个文件里只有文章的内容,没有历史记录或评论。接下来,用你喜欢的xml处理库在python中解析这个文件。我个人比较喜欢用elementtree。祝你好运。