Python多处理并行写入单个gzip

#python3.8 import gzip from itertools import islice from multiprocessing import Process, Queue, Lock def reader(infile, data_queue, coordinator_queue, chunk_size): print("Reader Started.") while True: data_chunk = list(islice(infile, chunk_size)) data_queue.put(data_chunk) coordinator_queue.put('CHUNK_READ') if not data_chunk: coordinator_queue.put('READ_DONE') #Process exit break def writer(outfile, data_queue, coordinator_queue, write_lock, ID): print("Writer Started.") while True: queue_message = data_queue.get() if (queue_message == 'DONE'): outfile.flush() coordinator_queue.put('WRITE_DONE') #Process exit break else: print("Writer",ID,"-","Write Lock:",write_lock) write_lock.acquire() print("Writer",ID,"-","Write Lock:",write_lock) for line in queue_message: print("Line write:",line) outfile.write(line) write_lock.release() print("Writer",ID,"-","Write Lock:",write_lock) def coordinator(reader_procs, writer_procs, coordinator_queue, data_queue): print("Coordinator Started.") active_readers=reader_procs active_writers=writer_procs while True: queue_message = coordinator_queue.get() if queue_message=='READ_DONE': active_readers = active_readers-1 if active_readers == 0: while not data_queue.qsize() == 0: continue [data_queue.put('DONE') for x in range(writer_procs)] if queue_message=='WRITE_DONE': active_writers = active_writers-1 if active_writers == 0: break def main(): reader_procs=1 writer_procs=2 chunk_size=1 queue_size=96 data_queue = Queue(queue_size) coordinator_queue=Queue() write_lock=Lock() infile_path='/directory/input_records.json.gz' infile = gzip.open(infile_path, 'rt') outfile_path='/directory/output_records.json.gz' outfile = gzip.open(outfile_path, 'wt') #Works when it is uncompressed #outfile=open(outfile_path, 'w') readers = [Process(target=reader, args=(infile, data_queue, coordinator_queue, chunk_size)) for x in range(reader_procs)] writers = [Process(target=writer, args=(outfile, data_queue, coordinator_queue, write_lock, x)) for x in range(writer_procs)] coordinator_p = Process(target=coordinator, args=(reader_procs, writer_procs, coordinator_queue, data_queue)) coordinator_p.start() for process in readers: process.start() for process in writers: process.start() for process in readers: process.join() for process in writers: process.join() coordinator_p.join() outfile.flush() outfile.close() main()

#python3.8 import gzip from itertools import islice from multiprocessing import Process, Queue def reader(infile, data_queue, coordinator_queue, chunk_size): print("Reader Started.") while True: data_chunk = list(islice(infile, chunk_size)) data_queue.put(data_chunk) coordinator_queue.put('CHUNK_READ') if not data_chunk: coordinator_queue.put('READ_DONE') #Process exit break def compressor(data_queue, compressed_queue, coordinator_queue): print("Compressor Started.") while True: chunk = '' queue_message = data_queue.get() if (queue_message == 'DONE'): #Notify coordinator process of task completion coordinator_queue.put('COMPRESS_DONE') #Process exit break else: for line in queue_message: #Assemble concatenated string from list chunk += line #Encode the string as binary so that it can be compressed #Setting gzip compression level to 9 (highest) compressed_chunk=gzip.compress(bytes(chunk,'utf-8'),compresslevel=9) compressed_queue.put(compressed_chunk) def writer(outfile, compressed_queue, coordinator_queue): print("Writer Started.") while True: queue_message = compressed_queue.get() if (queue_message == 'DONE'): #Notify coordinator process of task completion coordinator_queue.put('WRITE_DONE') #Process exit break else: outfile.write(queue_message) def coordinator(reader_procs, writer_procs, compressor_procs, coordinator_queue, data_queue, compressed_queue): print("Coordinator Started.") active_readers=reader_procs active_compressors=compressor_procs active_writers=writer_procs while True: queue_message = coordinator_queue.get() if queue_message=='READ_DONE': active_readers = active_readers-1 if active_readers == 0: while not data_queue.qsize() == 0: continue [data_queue.put('DONE') for x in range(compressor_procs)] if queue_message=='COMPRESS_DONE': active_compressors = active_compressors-1 if active_compressors == 0: while not compressed_queue.qsize() == 0: continue [compressed_queue.put('DONE') for x in range(writer_procs)] if queue_message=='WRITE_DONE': active_writers = active_writers-1 if active_writers == 0: break def main(): reader_procs=1 compressor_procs=2 #writer_procs really needs to stay as 1 since writing must be done serially #This could probably be written out... writer_procs=1 chunk_size=600 queue_size=96 data_queue = Queue(queue_size) compressed_queue=Queue(queue_size) coordinator_queue=Queue() infile_path='/directory/input_records.json.gz' infile = gzip.open(infile_path, 'rt') outfile_path='/directory/output_records.json.gz' outfile=open(outfile_path, 'wb') readers = [Process(target=reader, args=(infile, data_queue, coordinator_queue, chunk_size)) for x in range(reader_procs)] compressors = [Process(target=compressor, args=(data_queue, compressed_queue, coordinator_queue)) for x in range(compressor_procs)] writers = [Process(target=writer, args=(outfile, compressed_queue, coordinator_queue)) for x in range(writer_procs)] coordinator_p = Process(target=coordinator, args=(reader_procs, writer_procs, compressor_procs, coordinator_queue, data_queue, compressed_queue)) coordinator_p.start() for process in readers: process.start() for process in compressors: process.start() for process in writers: process.start() for process in compressors: process.join() for process in readers: process.join() for process in writers: process.join() coordinator_p.join() outfile.flush() outfile.close() main()

1条回答

网友
1楼 · 发布于 2024-06-12 22:15:49

通过将每个线程的完整gzip流写入单个输出文件，实际上非常简单。是的，您需要一个线程来完成所有的写操作，在另一个压缩线程开始写之前，每个压缩线程轮流写其gzip流的all。压缩线程都可以并行进行压缩，但写入需要序列化
这样做的原因是gzip标准RFC 1952说gzip文件由一系列成员组成，其中每个成员都是gzip头、压缩数据和gzip尾部

相关问题更多 >

编程相关推荐

热门问题

热门文章