使用Python进行形态学文本分析,基于*.dic和*.aff

2 投票
2 回答
2301 浏览
提问于 2025-04-18 08:58

我有两个乌克兰语的文件,格式是hunspell的(一个是.dic文件,一个是.aff文件)。我的程序需要获取输入单词的基本形式。也就是说,它可以从.dic文件中找到单词的形式,然后从.aff文件中获取词缀。我不知道怎么做到这一点,即使是用Hunspell的工具,但我想这应该是可能的。

请问有哪些Python库可以利用.dic和.aff文件来获取单词的基本形式呢?

2 个回答

0

只是想更新一下,le pyhunspell 项目不再在 googlecode 上了。以下是新的链接:

至于添加功能(在第一个回答的评论中提到的),现在已经在 pydoc 中有文档说明了。

3

如前所述,hunspell是你需要的库。以下是一些来自https://code.google.com/p/pyhunspell/wiki/UsingPyHunspell的示例:

import hunspell
hobj = hunspell.HunSpell('/usr/share/myspell/en_US.dic', '/usr/share/myspell/en_US.aff')
hobj.spell('spookie')
>>>>False

hobj.suggest('spookie')
>>>>['spookier', 'spookiness', 'spooky', 'spook', 'spoonbill']

hobj.spell('spooky')
>>>>True

hobj.analyze('linked')
>>>>[' st:link fl:D']
hobj.stem('linked')
>>>>['link']

撰写回答