Pandas到峎csv，唯一记录数减少

2条回答

网友

1楼 · 编辑于 2024-04-27 01:15:15

首先，你认为整数的长度很重要是对的。在

让我们用数据做些实验来证明这一点。在

实验1

让我们看看熊猫能处理的最大整数是什么：

df = pd.DataFrame({"a":[9223372036854775899]})
df.to_csv("try.csv", index=False)
df1 = pd.read_csv("try.csv", dtype={"a":int})
df1

a
0   9223372036854775899


df = pd.DataFrame({"a":[92233720368547758100]})
df.to_csv("try.csv", index=False)
df2 = pd.read_csv("try.csv", dtype={"a":int})
df2

                                     -
OverflowError                             Traceback (most recent call last)
pandas/_libs/parsers.pyx in pandas._libs.parsers.TextReader._convert_with_dtype()

pandas/_libs/parsers.pyx in pandas._libs.parsers._try_int64()

OverflowError: Overflow

所以，现在的问题是，我们应该如何正确地指定数字的格式

实验2

^{pr2}$

我们看到float是在吃数字

实验3

让我们试试object格式

df = pd.DataFrame({"a":[98444375131798787989138668, 98444375131798787989138669]})
df.to_csv("try.csv", index=False)
df4 = pd.read_csv("try.csv", dtype={"a":object})

df4.a.nunique()

2

简而言之，问题的答案是将读取时的数据类型指定为object：

df = pd.read_csv("result.csv", dtype={"fullVisitorId":object})

网友

2楼 · 编辑于 2024-04-27 01:15:15

排除任何数据类型问题的一种方法是将数据类型强制为整数（在保存到csv之前以及立即从csv读取数据类型）。在

阅读后：

result = pd.read_csv('result.csv')
result['fullVisitorId'] = result['fullVisitorId'].astype(int)
result['fullVisitorId'].nunique() , result['fullVisitorId'].count()

在infer_objects（）中也有一些您可能需要探索的内容

相关问题更多 >

编程相关推荐

热门问题

热门文章

Pandas到峎csv，唯一记录数减少

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >