处理utf-8时性能慢的原因是什么
我有一个熊猫代码,我从csv中读取数据并进行数据转换。在分配encoding='utf-8'
之前,我的基准是每25万行29s
。你知道吗
在我实现到utf-8
到read_csv
和to_csv
的编码之后,它需要双倍的时间,即每250k行60s
。你知道吗
for df in pd.read_csv(downloaded_file, chunksize=chunksize, compression='gzip', low_memory=False,
skipinitialspace=True, encoding='utf-8'):
# do some handling
df.to_csv(outfile_name, index=False, compression='gzip', sep='\t', quoting=1, encoding='utf-8')
我的数据处理主要是重命名列,检测和删除黑名单字,舍入价格等
目前没有回答
相关问题 更多 >
编程相关推荐