除了NLTK,还有哪些优秀的Python信息检索库?
用于分析互联网上的文档!
2 个回答
3
你能不能多说说为什么NLTK不够用,或者你需要考虑哪些功能才能把某个框架称为“最好”?
不过,Python里有一个内置的shlex词法解析库。
最近还有一本关于这个主题的书,叫做用Python进行自然语言处理。看起来这本书至少有一部分内容是讲NLTK的。
你可能还想看看awaretek网站上的教程和库的列表,里面也提到了NLQ.py框架。
用Python进行自然语言处理 http://ecx.images-amazon.com/images/I/41NBqj7NyGL._BO2.jpg
5
另外,R 提供了很多文本挖掘的工具,而且可以很方便地通过 RPy2 和 Python 进行整合。
你可以看看 CRAN 上的自然语言处理视图。特别是,关注一下 tm
这个包。这里有一些相关的链接:
- 关于这个包的论文,发表在《统计计算杂志》上:http://www.jstatsoft.org/v25/i05/paper。论文中有一个很好的例子,分析了 R-devel 邮件列表(https://stat.ethz.ch/pipermail/r-devel/)2006年的帖子。
- 包的主页:http://cran.r-project.org/web/packages/tm/index.html
- 看看入门介绍的小册子:http://cran.r-project.org/web/packages/tm/vignettes/tm.pdf
此外,R 还提供了很多解析 HTML 或 XML 的工具。你可以看看这个问题,里面有使用 RCurl
和 XML
包的例子。