擅长:python、mysql、java
<p>您是否尝试使用<code>word_count</code>参数而不是<code>ratio</code>?在</p>
<p>如果上述方法仍然不能解决问题,那是因为<code>gensim</code>的实现限制。如果仍有OOM错误,使用<code>gensim</code>的唯一方法是拆分文档。这也会加快你的解决方案(如果文档真的很大,无论如何也不会是个问题)。在</p>
<h3><code>summarize</code>有什么问题:</h3>
<p><code>gensim</code>的<code>summarizer</code>默认使用TextRank,这是一种使用PageRank的算法。在<code>gensim</code>中,不幸的是,<a href="https://github.com/RaRe-Technologies/gensim/blob/develop/gensim/summarization/pagerank_weighted.py#L86" rel="nofollow noreferrer">using a Python list of PageRank graph nodes</a>实现了它,因此如果图太大,它可能会失败。在</p>
<p>顺便问一下,文档长度是用单词还是字符来衡量的?在</p>