文本挖掘:何时使用解析器、标注工具和NER工具?
我正在做一个关于挖掘博客内容的项目,需要帮助来选择合适的工具。我想知道什么时候该用解析器,什么时候该用标注器,什么时候又需要用到命名实体识别工具?
比如说,我想找出几个博客中讨论得最多的话题;我是不是应该用词性标注器来抓取名词,然后统计一下出现的频率?这样做可能不够,因为一些非常通用的词也会出现,对吧?那我是不是应该有一个分类列表和一些同义词来进行匹配呢?
顺便说一下,我正在使用nltk,但也在考虑使用斯坦福的标注器或解析器,因为有几个朋友说这些工具不错。
1 个回答
3
与其试图重新发明轮子,不如了解一下主题模型。这个模型的基本原理是把经常一起出现的词汇分成一组一组的。Mallet提供了一个现成的工具包,可以用来完成这样的任务:http://mallet.cs.umass.edu/topics.php。
回到你最初的问题,词性标注器、解析器和命名实体识别工具通常不是用来识别主题的,它们更多是用在信息提取的任务上,目的是在文档中找出具体的角色、事件、地点、时间等等。举个例子,如果你有一句简单的句子“约翰把苹果给了玛丽。”你可能会用依存解析器来分析,发现约翰是主语,苹果是宾语,玛丽是介词宾语;这样你就知道约翰是给予者,玛丽是接受者,而不是反过来。