擅长:python、mysql、java
<p>据我所知。我不这么认为,你可以有准确的结果,但你可以做一些事情,这将有助于你清理你的数据</p>
<ol>
<li>首先使用.lower()降低字符串</li>
<li>使用Strip()剥离字符串以删除多余的空格</li>
<li>标记字符串</li>
<li>对您的数据进行词干化和柠檬化<br/></li>
</ol>
<p>你应该研究句子的相似性,python中有多个库,比如gensim,nltk<br/>
<a href="https://radimrehurek.com/gensim/tutorial.html" rel="nofollow noreferrer">https://radimrehurek.com/gensim/tutorial.html</a><br/>
<a href="https://spacy.io/" rel="nofollow noreferrer">https://spacy.io/</a><br/>
<a href="https://www.nltk.org/" rel="nofollow noreferrer">https://www.nltk.org/</a><br/></p>
<p>即使我创建了非常基本的文档相似性项目,您也可以查看这个github<br/>
<a href="https://github.com/tawabshakeel/Document-similarity-NLP-" rel="nofollow noreferrer">https://github.com/tawabshakeel/Document-similarity-NLP-</a><br/></p>
<p>我希望这些都能帮助你解决问题。你知道吗</p>