我已经将一个Excel文件转换成csv,目标是用python分析这个数据集。所以在使用以下代码导入我的模块和数据集之后
Import pandas as pd
Import numpy as np
Import matplotlib as mlt
pd.read_csv('filename.csv')
我收到了以下信息:
"'utf-8' codec can't decode byte 0xbf in position 6: invalid start byte"
我在网上搜索了一下,但这些解决方案都不适用于我的问题,老实说,我不知道该怎么办。你知道吗
首先,你需要知道什么是字符编码。不是UTF-8。你知道吗
有很多不同的字符编码,有时Excel会将编码改为“iso-8859-1”或“cp1252”,这太疯狂了。你知道吗
以下是每个IT人员都必须知道的重要信息:The Absolute Minimum Every Software Developer Absolutely, Positively Must Know About Unicode and Character Sets (No Excuses!)
要解决您的问题,至少有三种选择:
1)尝试一些可能性(拉丁语1、cp1252等):
2)在读取之前用UTF-8编码(或其他原始编码)保存文件。可能Windows会在您打开它(Excel)并更新某些行后更改编码。你知道吗
3)解决这个问题的一种方法是尝试测试一系列不同的字符编码,看看它们是否有效。不过,更好的方法是使用chardet模块尝试并自动猜测正确的编码是什么。这不是100%保证是正确的,但它通常比仅仅猜测更快:
相关问题 更多 >
编程相关推荐