擅长:python、mysql、java
<p>这个模块是由Java训练的大量汉字。我搞不清原始语料库的编码格式。这个错误可以用gensim<a href="https://github.com/piskvorky/gensim/wiki/Recipes-&-FAQ#q10-loading-a-word2vec-model-fails-with-unicodedecodeerror-utf-8-codec-cant-decode-bytes-in-position-" rel="noreferrer">FAQ</a>中的描述来解决</p>
<p>使用带有忽略字符解码错误标志的加载字2vec格式:</p>
<pre><code>In [1]: import gensim
In [2]: model = gensim.models.Word2Vec.load_word2vec_format('/data5/momo-projects/user_interest_classification/code/word2vec/vectors_groups_1105.bin', binary=True, unicode_errors='ignore')
</code></pre>
<p>但我不知道忽略编码错误是否重要。</p>