doc2时出现“utf8”编解码器错误

def to_array(self): self.sentences = [] for source, prefix in self.sources.items(): with utils.smart_open(source) as fin: for item_no, line in enumerate(fin): self.sentences.append(LabeledSentence( utils.to_unicode(line).split(), [prefix + '_%s' % item_no])) return self.sentences sentences = LabeledLineSentence(sources) model = Doc2Vec(min_count=1, window=10, size=100, dm_mean=0, sample=1e-5, negative=5, workers=12) model.build_vocab(sentences.to_array())

1条回答

网友

1楼 · 发布于 2024-04-19 19:04:14

看起来这个AnacondaGensim程序在需要utf-8时得到了一个字节。model.build_vocab(sentences.to_array())没有得到它想要的类型。在

你在哪里找到的？“utils”是从哪里进口的？我不认为这是普通的python3。看看this。在

考虑到您使用的是python3，您可能不需要任何东西。在

就换一个

(LabeledSentence(utils.to_unicode(line).split()...

与

^{pr2}$

如果不起作用，请尝试：

^{3}$

编程相关推荐

java如何优化orientdb查询
Android/java解析带有编号数据的JSON
javascript IE 11找不到运行小程序的Java插件
aar中未包含java类
java在JCEF浏览器中获取网页截图
string Java：在不使用循环的情况下将输入与列表中的所有内容进行比较？
regex如何使用（正则表达式）删除java中的重复字母，并且不区分大小写
数组如何在java中获取timeRangeEndDate和timeRangeStartDate？
java jBPM 6.1 Hello World
java有些对象无法通过Gson反序列化

相关问题更多 >

编程相关推荐

热门问题

热门文章