擅长:python、mysql、java
<p>一个选择是自己制作柠檬汁</p>
<p>这听起来可能很可怕,但不要害怕!做一件事其实很简单</p>
<p>我最近做了一个关于如何制作柠檬化器的教程,链接如下:</p>
<p><a href="https://medium.com/analytics-vidhya/how-to-build-a-lemmatizer-7aeff7a1208c" rel="nofollow noreferrer">https://medium.com/analytics-vidhya/how-to-build-a-lemmatizer-7aeff7a1208c</a></p>
<p>作为总结,您必须:</p>
<ul>
<li>使用POS标记器(您可以使用spaCy标记器)标记输入的单词</李>
<li>获取单词及其引理的语料库-在这里,我建议您下载西班牙语的<a href="https://universaldependencies.org/#download" rel="nofollow noreferrer">Universal Dependencies Corpus</a>-只需按照上面提到的教程中的步骤操作即可</李>
<li>从语料库中提取的单词创建引理dict</李>
<li>保存dict并生成一个包装函数,该函数同时接收单词及其位置</li>
</ul>
<p>在代码中,它如下所示:</p>
<pre><code>def lemmatize(word, pos):
if word in dict:
if pos in dict[word]:
return dict[word][pos]
return word
</code></pre>
<p>很简单,对吧</p>
<p>事实上,简单的柠檬化并不像人们想象的那样需要大量的处理。难点在于词性标注,但这是免费的。无论哪种方式,如果您想自己做标记,您可以看到我制作的另一个教程:</p>
<p><a href="https://medium.com/analytics-vidhya/part-of-speech-tagging-what-when-why-and-how-9d250e634df6" rel="nofollow noreferrer">https://medium.com/analytics-vidhya/part-of-speech-tagging-what-when-why-and-how-9d250e634df6</a></p>
<p>希望你能解决它</p>