Python的NLTK与相关的Java库?

2024-04-27 14:12:33 发布

您现在位置:Python中文网/ 问答频道 /正文

我在以前的Java项目中使用了LingPipe、Stanford的NER、RiTa和各种句子相似度库,这些项目专注于大量英语文本的文本(预)处理(索引、xml标记、主题检测等)(大约10000个文档总计为1 gb文本)。也许我是一个糟糕的Java程序员,但是当我切换到另一个语料库时,我发现自己输入了很多代码并使用了很多库。总的来说,我觉得这项工作可能有更好的工具。

我想我的问题是,切换到Python和NLTK进行信息检索/语言处理,我会受益吗?还是有足够的利与弊使它非常主观?NLTK足够直观,可以快速学习吗?

我会弄脏我的手,但在接下来的几天里我将无法使用个人机器。


Tags: 项目文档标记文本主题xmljava句子
2条回答

NLTK有利于自然语言处理。我把它用于我的数据挖掘项目。你可以训练自己的分析仪。学习曲线并不陡峭。

NLTK有大量的语料库来训练你的分析器。您还可以提供自己的一组数据,例如,一个带有词性标记的日志。

因为python非常适合文本处理,所以您可以尝试一下。另外,它有一个在线的tutorial

请不要忘记使用Python2.x版本。试试Python2.6。 NLTK可能不适合使用python 3.x

如果你已经了解了NLP的基本知识,我认为NLTK应该很容易理解。它有一堆文档,两本书,我写了很多关于streamhacker.com的文章和教程。如果您不想丢失Java包中的任何内容,理论上可以使用Jython(也许还有execnet)将其与NLTK结合起来。

您还可以查看Pattern库。

相关问题 更多 >