如何有效地删除大文件的第一行？问题的回答

如何有效地删除大文件的第一行？

回答此问题可获得 20 贡献值，回答如果被采纳可获得 50 分。

这个问题已经被问到了<a href="https://stackoverflow.com/questions/20364396/how-to-delete-the-first-line-of-a-text-file-using-python">here</a>和<a href="https://stackoverflow.com/questions/10758584/deleting-the-first-line-of-a-text-file-in-python">here</a>，但没有一个解决方案对我有效 在Python 3中，如何有效地从大文件中删除第一行 我正在编写一个需要日志记录的程序，日志文件有一个可配置的最大大小，可以是无限的。因此，我不想使用<code>readlines()</code>或类似的方法，因为这些方法会占用大量内存。速度不是一个大问题，但是如果不重写整个文件，也不需要临时文件，就可以完成，那就太好了 解决方案需要跨平台 示例日志文件： <pre><code>[09:14:56 07/04/17] [INFO] foo [23:45:01 07/04/17] [WARN] bar [13:45:28 08/04/17] [INFO] foobar ... many thousands more lines </code></pre> 输出： <pre><code>[23:45:01 07/04/17] [WARN] bar [13:45:28 08/04/17] [INFO] foobar ... many thousands more lines </code></pre> 此代码将在循环中运行： <pre><code>while os.path.getsize(LOGFILE) > MAXLOGSIZE: # remove first line of file </code></pre> 以下解决方案均不起作用且内存效率低： 解决方案#1-有效但效率低下 <pre><code>with open('file.txt', 'r') as fin: data = fin.read().splitlines(True) with open('file.txt', 'w') as fout: fout.writelines(data[1:]) </code></pre> 解决方案#2-不起作用，将文件留空 <pre><code>import shutil source_file = open('file.txt', 'r') source_file.readline() target_file = open('file.txt', 'w') shutil.copyfileobj(source_file, target_file) </code></pre> 解决方案#3-有效，但使用额外的文件： <pre><code>with open("file.txt",'r') as f: with open("new_file.txt",'w') as f1: f.next() # skip header line for line in f: f1.write(line) </code></pre>

0 条评论
分类：Python问答

默认排序时间排序

1 个回答

匿名 1天前

　擅长：python、mysql、java

因此，这种方法非常粗糙。如果您的线条尺寸大致相同，且标准偏差较小，则效果良好。我们的想法是将文件的一部分读入一个缓冲区，该缓冲区足够小，可以节省内存，但足够大，这样两端的书写形式就不会把事情弄糟（因为行的大小大致相同，差异很小，我们可以交叉手指祈祷它能工作）。我们基本上会跟踪我们在文件中的位置并来回跳转。我使用<code>collections.deque</code>作为缓冲区，因为它从两端都具有良好的<code>append</code>性能，并且我们可以利用队列的FIFO特性： <pre><code>from collections import deque def efficient_dropfirst(f, dropfirst=1, buffersize=3): f.seek(0) buffer = deque() tail_pos = 0 # these next two loops assume the file has many thousands of # lines so we can safely drop and buffer the first few... for _ in range(dropfirst): f.readline() for _ in range(buffersize): buffer.append(f.readline()) line = f.readline() while line: buffer.append(line) head_pos = f.tell() f.seek(tail_pos) tail_pos += f.write(buffer.popleft()) f.seek(head_pos) line = f.readline() f.seek(tail_pos) # finally, clear out the buffer: while buffer: f.write(buffer.popleft()) f.truncate() </code></pre> 现在，让我们用一个运行良好的假装文件来尝试这一点： <pre><code>>>> s = """1. the quick ... 2. brown fox ... 3. jumped over ... 4. the lazy ... 5. black dog. ... 6. Old McDonald's ... 7. Had a farm ... 8. Eeyi Eeeyi Oh ... 9. And on this farm they had a ... 10. duck ... 11. eeeieeeiOH ... """ </code></pre> 最后： <pre><code>>>> import io >>> with io.StringIO(s) as f: # we mock a file ... efficient_dropfirst(f) ... final = f.getvalue() ... >>> print(final) 2. brown fox 3. jumped over 4. the lazy 5. black dog. 6. Old McDonald's 7. Had a farm 8. Eeyi Eeeyi Oh 9. And on this farm they had a 10. duck 11. eeeieeeiOH </code></pre> 如果<code>dropfirst</code>&lt<code>buffersize</code>有点“松懈”。因为您只想删除第一行，所以只需保留<code>dropfirst=1</code>，您可以制作<code>buffersize=100</code>或是为了安全起见。它将比阅读“成千上万行”更节省内存，如果没有一行比前几行大，那么您应该是安全的。但请注意，这是非常粗糙的边缘

如何有效地删除大文件的第一行？

1 个回答

相关Python问题