“utf-8”加载word2vec modu时解码错误

In [1]: import gensim In [2]: model = gensim.models.Word2Vec.load_word2vec_format('/data5/momo-projects/user_interest_classification/code/word2vec/vectors_groups_1105.bin', binary=True) UnicodeDecodeError: 'utf-8' codec can't decode bytes in position 96-97: unexpected end of data

2条回答

网友

1楼 · 编辑于 2024-05-14 14:56:42

我试过国旗

unicode_errors='ignore'

但它并不能解决unicode问题。

在将文件从filename.bin.gz重命名为filename.gz之后，我检查了是否收到unicode错误。

我的解决方案是提取压缩文件，而不是重命名它。

然后我使用上面带有标志的文件，没有unicode错误。

注意，我在python 2.7中使用Mac（Sierra）。

网友

2楼 · 编辑于 2024-05-14 14:56:42

这个模块是由Java训练的大量汉字。我搞不清原始语料库的编码格式。这个错误可以用gensimFAQ中的描述来解决

使用带有忽略字符解码错误标志的加载字2vec格式：

In [1]: import gensim

In [2]: model = gensim.models.Word2Vec.load_word2vec_format('/data5/momo-projects/user_interest_classification/code/word2vec/vectors_groups_1105.bin', binary=True, unicode_errors='ignore')

但我不知道忽略编码错误是否重要。

相关问题更多 >

编程相关推荐

热门问题

热门文章