擅长:python、mysql、java
<p>你需要的是一个名为“bigram”的数据集,它将给出给定语言中给定的一对词在一起出现的频率(即频率)。频率越高,对就越有可能是一个术语。在</p>
<p>例如,请查看<a href="https://corpus.byu.edu/coca/" rel="nofollow noreferrer">COCA</a>中可搜索和可下载的语料库。谷歌也有类似的数据集。有3克和4克,一般称为<em>n-grams</em>。在</p>
<p>在COCA数据集中,<em>计算机科学</em>的频率等级为1604;<em>假新闻</em>有828个,苹果汽车</em>有2个。所以你需要决定阈值频率来接受一个词对。在</p>