Python的NLTK与相关Java库?
我之前在Java项目中使用过LingPipe、斯坦福的命名实体识别(NER)、RiTa以及各种句子相似度库,这些项目主要是处理大量英文文本(大约10,000个文档,总共超过1GB的文本),包括索引、XML标记、主题检测等等。也许我不是个好Java程序员,但每当我换一个文本库时,我发现自己需要写很多代码,还要用很多库。总的来说,我觉得可能有更好的工具来完成这些工作。
我想问的是,换成Python和NLTK来做信息检索和语言处理会对我有帮助吗?还是说这其中的优缺点太多,得看个人情况?NLTK是否足够直观,能让我快速上手?
我想动手试试,但接下来的几天我没有个人电脑可以用。
2 个回答
7
如果你已经了解了自然语言处理(NLP)的基础知识,那么我觉得学习NLTK应该会很简单。它有很多文档,还有两本书,我在streamhacker.com上写了不少文章和教程。如果你不想失去Java包中的某些东西,理论上你可以用Jython把它和NLTK结合起来(也许还可以用execnet)。
你也可以看看Pattern这个库。