如何理解“雞”與“超市”有關,但與“猶太會堂”或“牙醫”無關

2024-05-12 13:27:25 发布

您现在位置:Python中文网/ 问答频道 /正文

假设我们有一个输入字符串我需要买一些鸡肉。 在对这个字符串做了一点工作之后,假设我们将它简化为买鸡肉

我的问题是,我们如何理解鸡肉与咖啡馆或超市有关,而与锁匠或邮局无关。更具体地说,我有n个兴趣点类型,我试图得出n个概率p1,p2,…,其中每个概率表示字符串类型对的可能性(或意义)

我的最终目标是得到一个包含这n个概率的unequality,这当然应该是有意义的。我想要:

p(chicken, synagogue) < p(chicken, supermarket)

但不是:

p(chicken, train_station) > p(chicken, café)

我试着在谷歌上搜索,根据搜索结果的数量来确定这些概率,但一点也不满意。例如,当我搜索chicken breast EMBASSY:我得到了24500000个结果。对于chicken breast SUPERMARKET,结果的数量是1160000。如果我们只考虑这些数字来计算概率,我们会得出一个结论,其中p(鸡肉,超市)<;当然是错的

你对如何解决这个问题有什么建议吗


Tags: 字符串类型数量可能性概率咖啡馆意义兴趣
1条回答
网友
1楼 · 发布于 2024-05-12 13:27:25

你可能想看看一些语境化的语言模型,比如BERT,它基本上是以一种方式训练出来的,给你在不同的语境中对同一个词的向量表示。例如,bankbank depositriver bank中不会有相同的表示

一般来说,从NLP的角度来看,language modelword embedding是您可能想要查找的关键字

相关问题 更多 >