在python中对大型csv文件中的行进行迭代的最佳方法是写入新的行

+-------+-------+--------+-------+--------+----------+ | Gene1 | Start | End | Gene2 | Start | End | +-------+-------+--------+-------+--------+----------+ | gyrA | 33 | 193 | dnaB | 844 | 965 | | rpoS | 152 | 190 | ldh | 200 | 264 | | gbpC | 456 | 500 | bgl | 1222 | 14567 | +-------+-------+--------+-------+--------+----------+

+-------+-------+--------+-------+-------+--------+ | Gene1 | Start | End | Gene2 | Start | End | +-------+-------+--------+-------+-------+--------+ | rpoS | 152 | 190 | ldh | 200 | 264 | +-------+-------+--------+-------+-------+--------+

2条回答

网友

1楼 · 编辑于 2024-05-23 17:43:50

许多操作是矢量化的。你很难自己快速地写一些更有表现力的东西：

df = pd.read_csv('large.csv')

  Gene1  Start  End Gene2  Start.1  End.1
0  gyrA     33  193  dnaB      844    965
1  rpoS    152  190   ldh      200    264
2  gbpC    456  500   bgl     1222  14567

返回布尔级数的条件：

abs(df.End - df['Start.1']) <= 20

0    False
1     True
2    False

按布尔序列筛选数据帧：

df[abs(df.End - df['Start.1']) <= 20]

  Gene1  Start  End Gene2  Start.1  End.1
1  rpoS    152  190   ldh      200    264

查看Getting Started页面了解更多信息

网友

2楼 · 编辑于 2024-05-23 17:43:50

我们可以使用chunksize来使用生成器表达式，一次处理多行并将其写入csv。分块执行此操作可以避免耗尽所有ram

另一个选项是使用Dask，您可以在上面阅读

首先，我们创建一个空白csv，其中包含要写入的目标标题

header_df = pd.read_csv(yourfile,nrows=1)

header_df.iloc[:0].to_csv('target_file',index=False)

chunksize = 5 * 10000 #50k rows.

for chunk in pd.read_csv(your_file,chunksize=chunksize):
#your etl logic.
#assuming your final variable is called target df.
    target_df.to_csv(target_file, mode='a', header=False,index=False)

相关问题更多 >

编程相关推荐

热门问题

热门文章