使用海量数据fi时的预期性能

2024-06-01 02:10:24 发布

您现在位置:Python中文网/ 问答频道 /正文

我想对一个很大的文件做些分析:

$ ls -lSh jq1pileup
-rw-rw-r--+ 1 balter SomeGroup 80G Nov 15 12:23 jq1pileup
$ wc jq1pileup
 3099750719 30997507190 85744405658 jq1pileup

不过,幸运的是,我和一些相当强壮的机器在一起

$ free -mhtal
             total       used       free     shared    buffers     cached  available
Mem:           94G        71G        22G       1.4G       592M        50G         0B
Low:           94G        71G        22G
High:           0B         0B         0B
-/+ buffers/cache:        20G        73G
Swap:         195G       6.1G       188G
Total:        289G        77G       211G

我发现在我的文件中阅读要花费很长的时间(比如以小时为单位)。什么是合理的期望?做一些简单的事情,比如得到形状,或者,可怕的是,一个直方图又需要几个小时。你知道吗

对于这样的任务,这是我应该期望的吗?你知道吗

编辑:

该文件是TSV文件。(FWIW,基因组丰度的堆积)。哦,从厕所看不出来,但它有9根柱子。你知道吗


Tags: 文件机器freelsnovtotalrw小时