有人解析过维基词典吗?

32 投票
11 回答
31168 浏览
提问于 2025-04-16 02:01

维基词典是一个包含多种语言的维基字典,里面还有翻译的内容。我对解析这个词典并玩弄这些数据很感兴趣,有人之前做过类似的事情吗?有没有什么库可以使用?(最好是Python的。)

11 个回答

15

wordnik 在解析词义等方面做得很好,他们还有一个很棒的接口

就像其他人提到的,维基词典的格式非常糟糕,并不是为了让计算机容易读取而设计的。

23

我曾经下载过一个维基词典的数据库,想要收集一些斯拉夫语言的单词和定义。我选择使用elementtree这个工具来处理这个xml格式的文件,而不是去抓取网站上的内容。你可以直接下载维基媒体提供的维基词典的xml数据库。可以去维基媒体下载页面,找到英文维基词典的数据库(enwiktionary),然后选择最新的数据库文件。你可能会需要那个名为pages-articles.xml.bz2的文件,这个文件里只有文章的内容,没有历史记录或评论。接下来,用你喜欢的xml处理库在python中解析这个文件。我个人比较喜欢用elementtree。祝你好运。

20

维基词典是用MediaWiki这个软件运行的,而MediaWiki有一个API,也就是应用程序接口。

这个API的文档里有一个子页面,叫做客户端代码,上面列出了一些可以用来编程的Python库。

撰写回答