利用自然语言处理寻找单词关联

2024-05-15 09:17:51 发布

您现在位置:Python中文网/ 问答频道 /正文

对于“浪漫”或“地下”这样的词,我想使用python来浏览文本数据列表,并检索包含这些词和相关词的条目,例如“女朋友”或“墙上的洞”。在

有人建议我和NLTK一起工作来完成这项工作,但我不知道从哪里开始,而且我对语言处理和语言学一无所知。任何建议都将不胜感激。在


Tags: 数据文本语言列表条目建议语言学nltk
1条回答
网友
1楼 · 发布于 2024-05-15 09:17:51

你没有给我们太多的东西。但假设你有一段文字。这是我刚从Yelp评论中偷来的:

^{bq}$

好吧,这里有很多词。你想要什么样的词?形容词?副词?NLTK将帮助你“标记”这些词,这样你就能找到所有的广告词:“美丽”、“难忘”、“有趣”、“巨大”、“真实”。在

现在,你打算怎么处理他们?也许你可以加入一些动词和名词,“喜气洋洋”听起来不错。但“公告”就没那么有趣了。在

无论如何,您可以构建一个关联数据库。这个广告词和其他词一起出现在段落中。在

也许你可以计算出每个单词的频率,超过你的语料库。也许“餐厅”出现的很多,但“瘟疫洞”相对比较少见。所以你可以这样过滤?(只保留“有趣”的词。)

或者你也可以反过来,提取同义词:如果“浪漫”和“女朋友”经常出现在一起,那么就称它们为“相关词”,并将它们作为搜索引擎的一部分使用?在

我们不知道你想完成什么,所以很难提出建议。但是,是的,NLTK可以帮助您选择特定的单词子组,如果这确实相关的话。在

相关问题 更多 >