擅长:python、mysql、java
<p>如果你有更大的语料库和词频矩阵,使用稀疏矩阵乘法可能更有效。我使用的矩阵乘法技巧与本页的<code>algo</code>答案相同。</p>
<pre><code>import scipy.sparse as sp
X = sp.csr_matrix(df.astype(int).values) # convert dataframe to sparse matrix
Xc = X.T * X # multiply sparse matrix #
Xc.setdiag(0) # reset diagonal
print(Xc.todense()) # to print co-occurence matrix in dense format
</code></pre>
<p>这里是稀疏csr格式的共现矩阵</p>