使用contex区分颜色和单词的NLTK

2024-04-19 22:32:31 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在写一个程序来分析文本中颜色的用法。我想搜索颜色词,如“杏”或“橙”。例如,一位作者可能会写“风中翻滚的杏裙”,然而,我只想数真正描述颜色的杏子/橘子,而不是“我吃了杏子”或“我喝了橙汁”

有没有办法做到这一点,或者在NLTK中使用context()


Tags: 文本程序用法颜色context作者nltk办法
1条回答
网友
1楼 · 发布于 2024-04-19 22:32:31

欢迎来到同形异义、多义和WSD的广阔领域。在语料库语言学中,这是一种使用搭配(例如和)来确定果汁有“橙色”或由相应水果制成的可能性的方法。这两种可能性都很高,但由各自的水果制成“外套”的可能性应该要低得多。可以使用不同的方法。你可以要求语料库注释者(专家,众包等)在文本中注释数据,你可以用它来训练你的(机器学习)模型,在这里是一个简单的分类器。否则,你可以结合Wordnet使用大量的文本数据来收集搭配计数,这可能会给你提供语义信息,不管夹克衫是不是通常用水果做的。一个幸运的细节是很少有人在文本中使用固定的颜色,所以你不必关心像“黄香蕉”这样的情况。 浅层次的句法分析也可能有帮助,因为颜色形容词应该优先用于定语位置。 另一种方法是使用单词相似性度量(向量空间语义) 或嵌入词义消歧(WSD)。 也许这有助于: https://web.stanford.edu/~jurafsky/slp3/slides/Chapter18.wsd.pdfhttps://towardsdatascience.com/a-simple-word-sense-disambiguation-application-3ca645c56357

相关问题 更多 >