我正在将熊猫数据帧写入csv文件。然而,我可以发现惟一id的数量在减少,但是总的行数保持不变
您可以在下面找到代码:
检查分组测试的总计数和唯一计数
grouped_test['fullVisitorId'].nunique() , grouped_test['fullVisitorId'].count()
(639230, 639230)
提交到csv文件
^{pr2}$再次读取相同的csv文件
result = pd.read_csv('result.csv')
我在看文件时受到了以下警告
py:2785: DtypeWarning: Columns (0) have mixed types. Specify dtype option on import or set low_memory=False.
interactivity=interactivity, compiler=compiler, result=result)
正在检查计数
result['fullVisitorId'].nunique() , result['fullVisitorId'].count()
(638932, 639230)
你可以发现唯一id的数量减少了,你知道可能是什么问题。在
下面您可以找到一些ID的示例值。id的长度/数据类型与此有关吗?在
9844437513179813866
643697640977915618
首先,你认为整数的长度很重要是对的。在
让我们用数据做些实验来证明这一点。在
实验1
让我们看看熊猫能处理的最大整数是什么:
所以,现在的问题是,我们应该如何正确地指定数字的格式
实验2
^{pr2}$我们看到
float
是在吃数字实验3
让我们试试
object
格式简而言之,问题的答案是将读取时的数据类型指定为
object
:排除任何数据类型问题的一种方法是将数据类型强制为整数(在保存到csv之前以及立即从csv读取数据类型)。在
阅读后:
在infer_objects()中也有一些您可能需要探索的内容
相关问题 更多 >
编程相关推荐