如何同时计算一个大文件中的词频？问题的回答

如何同时计算一个大文件中的词频？

回答此问题可获得 20 贡献值，回答如果被采纳可获得 50 分。

我需要计算一个3gbgzip压缩的英语句子纯文本文件的词频，解压缩时大约是30gb。在 我有一个带有<code>collections.Counter</code>和<code>gzip.open</code>的单线程脚本，需要几个小时才能完成。在 因为逐行读取文件比拆分和计数快得多，所以我考虑一个producer-consumer流，其中一个文件读取器生成行，几个消费者执行拆分和计数，最后，合并<code>Counter</code>s以获得单词的出现。在 但是，我找不到<code>ProcessPoolExecutor</code>向<code>Executor</code>发送队列的示例，它们只是<code>map</code>列表中的单个项目。只有<code>asyncio.Queue</code>的单线程示例。在 <ul> <li>它是一个巨大的文件，所以我不能在计数之前读取整个文件并得到<code>list</code>，因此我不能使用<code>concurrent.futures.Executor.map</code>。但我读到的所有例子都是以一个固定的列表作为开始。</li> <li>拆分和计算一个句子的时间相当于fork a process，所以我必须使每个消费过程的寿命更长。我不认为<code>map</code>可以合并<code>Counter</code>，因此我不能使用<code>chunksize</code>&gt；1。因此，我必须给消费者一个队列，让他们继续计数，直到整个文件完成。但大多数示例只向消费者发送一个项目，并使用<code>chunksize=1000</code>来减少<code>fork</code>次。</li> </ul> 你能给我写个例子吗？在 py与py3.3向后兼容的速度更快。在 <hr/> 我的实际情况是更具体的文件格式： <pre><code>chr1 10011 141 0 157 4 41 50 chr1 10012 146 1 158 4 42 51 chr1 10013 150 0 163 4 43 53 chr1 10014 164 3 167 4 44 54 </code></pre> 我需要计算第3列到第8列的每个柱状图。所以我把词频作为一个简单的例子。在 我的代码是： ^{pr2}$ <code>csv.DictReader</code>花费的时间最多。在 <a href="https://i.stack.imgur.com/SVqhO.png" rel="nofollow noreferrer"><img src="https://i.stack.imgur.com/SVqhO.png" alt="cProfile"/></a> <hr/> 我的问题是，虽然gzip阅读器很快，csv阅读器很快，但我需要数到几十亿行。而且csv阅读器肯定比gzip阅读器慢。在 因此，我需要将行扩展到csv阅读器的不同工作进程，并分别进行下游计数。在一个生产者和许多消费者之间使用队列是很方便的。在 由于我使用的是Python而不是C，是否有一些抽象的包装器用于多处理和队列？是否可以将<code>ProcessPoolExecutor</code>与<code>Queue</code>类一起使用？在

0 条评论
分类：Python问答

默认排序时间排序

1 个回答

匿名 1天前

　擅长：python、mysql、java

如何同时计算一个大文件中的词频？

1 个回答

相关Python问题