假设我们有一个输入字符串我需要买一些鸡肉。 在对这个字符串做了一点工作之后,假设我们将它简化为买鸡肉
我的问题是,我们如何理解鸡肉与咖啡馆或超市有关,而与锁匠或邮局无关。更具体地说,我有n个兴趣点类型,我试图得出n个概率p1,p2,…,其中每个概率表示字符串类型对的可能性(或意义)
我的最终目标是得到一个包含这n个概率的unequality,这当然应该是有意义的。我想要:
p(chicken, synagogue) < p(chicken, supermarket)
但不是:
p(chicken, train_station) > p(chicken, café)
我试着在谷歌上搜索,根据搜索结果的数量来确定这些概率,但一点也不满意。例如,当我搜索chicken breast EMBASSY
:我得到了24500000个结果。对于chicken breast SUPERMARKET
,结果的数量是1160000。如果我们只考虑这些数字来计算概率,我们会得出一个结论,其中p(鸡肉,超市)<;当然是错的
你对如何解决这个问题有什么建议吗
你可能想看看一些语境化的语言模型,比如BERT,它基本上是以一种方式训练出来的,给你在不同的语境中对同一个词的向量表示。例如,
bank
在bank deposit
和river bank
中不会有相同的表示一般来说,从NLP的角度来看,
language model
和word embedding
是您可能想要查找的关键字相关问题 更多 >
编程相关推荐