为什么UTF8需要更多的处理时间

2024-04-19 01:43:45 发布

您现在位置:Python中文网/ 问答频道 /正文

处理utf-8时性能慢的原因是什么

我有一个熊猫代码,我从csv中读取数据并进行数据转换。在分配encoding='utf-8'之前,我的基准是每25万行29s。你知道吗

在我实现到utf-8read_csvto_csv的编码之后,它需要双倍的时间,即每250k行60s。你知道吗

for df in pd.read_csv(downloaded_file, chunksize=chunksize, compression='gzip', low_memory=False,
                                  skipinitialspace=True, encoding='utf-8'):

# do some handling

df.to_csv(outfile_name, index=False, compression='gzip', sep='\t', quoting=1, encoding='utf-8')

我的数据处理主要是重命名列,检测和删除黑名单字,舍入价格等


Tags: csvto数据代码falsedfread原因