Python：计算Pandas中两列之间的tfidf余弦相似度时的MemoryError问题的回答

Python：计算Pandas中两列之间的tfidf余弦相似度时的MemoryError

回答此问题可获得 20 贡献值，回答如果被采纳可获得 50 分。

我试图计算Pandas数据帧中两列之间的tf-idf向量余弦相似性。一列包含搜索查询，另一列包含产品标题。余弦相似度值是搜索引擎/排名机器学习算法的一个“特征”。在 我在iPython笔记本上做这件事，不幸的是遇到了内存错误，经过几个小时的挖掘，我不知道为什么。在 我的设置： <ul> <li>联想E560笔记本电脑</li> <li>酷睿i7-6500U@2.50 GHz</li> <li>16 GB内存</li> <li>Windows 10</li> <li>使用Anaconda3.5内核更新所有库</li> </ul> 我在一个小玩具数据集上测试了我的代码/目标，结果是类似的stackoverflow问题： <pre><code>import pandas as pd from sklearn.feature_extraction.text import TfidfVectorizer from scipy import spatial clf = TfidfVectorizer() a = ['hello world', 'my name is', 'what is your name?', 'max cosine sim'] b = ['my name is', 'hello world', 'my name is what?', 'max cosine sim'] df = pd.DataFrame(data={'a':a, 'b':b}) clf.fit(df['a'] + " " + df['b']) tfidf_a = clf.transform(df['a']).todense() tfidf_b = clf.transform(df['b']).todense() row_similarities = [1 - spatial.distance.cosine(tfidf_a[x],tfidf_b[x]) for x in range(len(tfidf_a)) ] df['tfidf_cosine_similarity'] = row_similarities print(df) </code></pre> 这给出了以下结果（好！）输出： ^{pr2}$ 但是，当我尝试将相同的方法应用于维度为186154x5的数据帧（df_all_export）（其中5列中的2列是查询（search_term）和document（product_title））： <pre><code>clf.fit(df_all_export['search_term'] + " " + df_all_export['product_title']) tfidf_a = clf.transform(df_all_export['search_term']).todense() tfidf_b = clf.transform(df_all_export['product_title']).todense() row_similarities = [1 - spatial.distance.cosine(tfidf_a[x],tfidf_b[x]) for x in range(len(tfidf_a)) ] df_all_export['tfidf_cosine_similarity'] = row_similarities df_all_export.head() </code></pre> 我得到…（这里没有给出全部错误，但你明白了）： <pre><code>MemoryError Traceback (most recent call last) <ipython-input-27-8308fcfa8f9f> in <module>() 12 clf.fit(df_all_export['search_term'] + " " + df_all_export['product_title']) 13 ---> 14 tfidf_a = clf.transform(df_all_export['search_term']).todense() 15 tfidf_b = clf.transform(df_all_export['product_title']).todense() 16 </code></pre> 在这一点上完全迷失了方向，但我担心解决方案会非常简单和优雅：） 提前谢谢你！在

0 条评论
分类：Python问答

默认排序时间排序

1 个回答

匿名 1天前

　擅长：python、mysql、java

Python：计算Pandas中两列之间的tfidf余弦相似度时的MemoryError

1 个回答

相关Python问题