如何在Python中打开/转换CSV以使字符串不是unicode？

def convert(input): if isinstance(input, dict): return {convert(key): convert(value) for key, value in input.iteritems()} elif isinstance(input, list): return [convert(element) for element in input] elif isinstance(input, unicode): return input.encode('utf-8') else: return input df = convert(df)

3条回答

网友

1楼 · 编辑于 2024-04-26 04:13:06

我认为您有一个问题，pandas将您的一些列推断为“object”类型，如果它找到至少一个unicode对象，它将推断为unicode。要解决此问题，应使用检查哪些列是unicode：

In [1] df.dtypes

Out[1]: 
column1         unicode
column2         unicode
column3         unicode

然后获取类型：

types = df.apply(lambda x: pd.lib.infer_dtype(x.values))

并将它们转换为字符串：

for col in types[types=='unicode'].index:
    df[col] = df[col].astype(str)

网友

2楼 · 编辑于 2024-04-26 04:13:06

熊猫会根据列的内容自动为数据框中的列指定数据类型。如果您想改变这一点，您需要为每一列推断一种数据类型。为数据帧的每一列调用这行代码。你知道吗

df["column_name"] = df['column_name'].astype('object')

在Python中，String数据类型等同于pandas中的object数据类型。你知道吗

对于包含浮点数的列，请调用以下代码：

df["column_name"] = df['column_name'].astype('float64')

此外，这里还有一个link，用于获取有关pandas中数据类型的其他信息。你知道吗

还可以通过调用df.dtypes来检查所有列的数据类型

网友

3楼 · 编辑于 2024-04-26 04:13:06

尝试：

df = pd.read_csv('xxxx.csv', dtype='str')

相关问题更多 >

编程相关推荐

热门问题

热门文章