擅长:python、mysql、java
<p>有意思的问题是,假设还没有一个你可以利用的有意义的复合词词典。我也希望“计算机科学”成为一个流行的话题。在</p>
<p>让我们采取这样一种方法,即我们对英语中的复合词一无所知,即“停止符号”与“停止”和“符号”是否有着同样重要的区别
“does better”来自“does”和“better”</p>
<p>分解后,您需要构建一个流程:</p>
<ol>
<li>识别同位置对</li>
<li>删除任何明显不相关的复合词(如词性、专有名称或标点符号)</li>
<li>保存候选对</li>
<li>分析候选对的频率</li>
<li>教导系统查找最有价值的候选对</li>
</ol>
<p>这是准确的描述吗?
如果是这样,我想你要的工具应该在(4)或(5)中。对于4),首先考虑Python的Orange库中的关联规则。你也可以使用scikit-learn的TF-IDF。对于5),您可以将4)中的输出公开为带计数的字符串列表、集合或字典。在</p>