我有一个CSV文件,其中有几个列包含整数和一个字符串。当然,由于混合的数据类型,我会收到一个dtype警告。我用这个命令读了这个文件。在
df = pd.read_csv(path, sep=";", na_values=missing)
我可以使用low_memory=False
或dtype=object
使警告静音,但据我所知,这使得读取文件的内存效率不高。在
我也可以使用na_values="my_string"
,但是我还有其他缺失的值(应该是真正的缺失值),所以不想混合它们。在
我不需要字符串的值,只需要它的值count,所以我想用一个整数替换它。像这样。在
^{pr2}$但是,在读取CSV文件时,是否也可以替换值?或者还有别的解决方案吗?我不想简单地让警告保持沉默,而是想找到一个更节省内存的解决方案。在
(我知道this answer,但它并不能真正帮助我解决问题。)
您可以使用converters:
另一种方法是在解析CSV文件后以矢量化方式转换列:
^{pr2}$300.000行DF的速度比较:
读取CSV文件时无法替换de值。加载并保存数据后,必须进行替换。那你就不会再收到警告了。在
相关问题 更多 >
编程相关推荐