我有一个csv,其中包含一系列带有特殊字符的字符串,当它加载时看起来很好(使用df.head(10)
),但当我使用df.iloc[0].descripcion
获取单元格时,会显示一些编码
我看到:
depto. interior de 80.15m2, consta de sala comedor cocina equipada, \xc3\xa1rea de lavado, ba\xc3\xb1o completo, recamara principal con closet y ba\xc3\xb1o completo. 2da. recamara con closet.'
我需要把它改成这样:
depto. interior de 80.15m2, consta de sala comedor cocina equipada, área de lavado, baño completo, recamara principal con closet y baño completo. 2da. recamara con closet.
要加载csv,我使用pandas和pd.read_csv('../data.csv')
如果我使用excel或libre office打开文件,看起来很好,所以我认为这就是编码
这是我最后运行的代码
stopwords = set(STOPWORDS)
# split the value
tokens = df2.iloc[0].descripcion.split(' ')
# Converts each token into lowercase
for i in range(len(tokens)):
tokens[i] = tokens[i].lower()
comment_words += " ".join(tokens)+" "
wordcloud = WordCloud(width = 1600, height = 1600,
background_color ='white',
stopwords = stopwords,
min_font_size = 10).generate(comment_words)
# plot the WordCloud image
plt.figure(figsize = (8, 8), facecolor = None)
plt.imshow(wordcloud)
plt.axis("off")
plt.tight_layout(pad = 0)
# plt.savefig('words.png',dpi=)
plt.show() ```
用
df.read_csv(filename,encoding='utf-8')
的组合修复并在wordcloud实例中添加arial的路径。(您应该下载并放置正确的路径)
相关问题 更多 >
编程相关推荐