按大小限制拆分大文件而不剪切线条

2024-04-24 09:08:09 发布

您现在位置:Python中文网/ 问答频道 /正文

所以我有兴趣将相当大的文件分成5Gig的间隔。我的目标是所有分区都小于5gig,分区数量尽可能少。在

虽然我通常使用有大小限制的拆分,但我需要确保行保持完整(我无法按大小拆分)。在

我一直在考虑使用文件大小和行数来确定每个文件可以拆分的行数

例如

File size = 11Gig
File line count = 900
File limit = 5Gig
ceiling(11/5) = 3
900/3 = 300
#Split the file by line limiting 300 each.

虽然这通常是可行的,但由于行元素的性质,如果文件的一段中有一个非常大的行,文件大小仍然可以超过5gigs。在

我正在考虑使用python(它处理数字的能力更好,而且似乎不那么老套),但是我会降低bashes文件处理速度。在

我想知道在bash中有没有人知道更好的选择?在

提前谢谢你!在


Tags: 文件the目标size数量间隔countline
1条回答
网友
1楼 · 发布于 2024-04-24 09:08:09

从拆分手册页:

...
-C,  line-bytes=SIZE
put at most SIZE bytes of lines per output file
...

这个选项的描述可能不是很明显,但它似乎涵盖了您所要求的:在达到大小字节之前,文件在最新可能的换行处被拆分。在

相关问题 更多 >