Python：计算Pandas中两列之间的tfidf余弦相似度时的MemoryError

import pandas as pd from sklearn.feature_extraction.text import TfidfVectorizer from scipy import spatial clf = TfidfVectorizer() a = ['hello world', 'my name is', 'what is your name?', 'max cosine sim'] b = ['my name is', 'hello world', 'my name is what?', 'max cosine sim'] df = pd.DataFrame(data={'a':a, 'b':b}) clf.fit(df['a'] + " " + df['b']) tfidf_a = clf.transform(df['a']).todense() tfidf_b = clf.transform(df['b']).todense() row_similarities = [1 - spatial.distance.cosine(tfidf_a[x],tfidf_b[x]) for x in range(len(tfidf_a)) ] df['tfidf_cosine_similarity'] = row_similarities print(df)

clf.fit(df_all_export['search_term'] + " " + df_all_export['product_title']) tfidf_a = clf.transform(df_all_export['search_term']).todense() tfidf_b = clf.transform(df_all_export['product_title']).todense() row_similarities = [1 - spatial.distance.cosine(tfidf_a[x],tfidf_b[x]) for x in range(len(tfidf_a)) ] df_all_export['tfidf_cosine_similarity'] = row_similarities df_all_export.head()

MemoryError Traceback (most recent call last) <ipython-input-27-8308fcfa8f9f> in <module>() 12 clf.fit(df_all_export['search_term'] + " " + df_all_export['product_title']) 13 ---> 14 tfidf_a = clf.transform(df_all_export['search_term']).todense() 15 tfidf_b = clf.transform(df_all_export['product_title']).todense() 16

2条回答

网友

1楼 · 编辑于 2024-05-23 14:33:53

在上面由MaxU发布的友好帮助和解决方案下，这里我展示了完成我试图实现的任务的完整代码。除了MemoryError当我尝试一些“老掉牙”的解决方法时，它还避免了余弦相似性计算中出现的奇怪的nan。在

请注意，下面的代码是一个部分代码片段，从这个意义上说，具有186,134 x 5的大数据帧df_all_export已经在完整代码中构建。在

我希望这能帮助那些试图使用tf-idf向量计算搜索查询和匹配文档之间的余弦相似度的人。对于这样一个常见的“问题”，我很难找到一个明确的解决方案来实现SKLearn和Pandas。在

import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import paired_cosine_distances as pcd

clf = TfidfVectorizer()

clf.fit(df_all_export['search_term'] + " " + df_all_export['product_title'])

A = clf.transform(df_all_export['search_term'])
B = clf.transform(df_all_export['product_title'])

cosine = 1 - pcd(A, B)

df_all_export['tfidf_cosine'] = cosine

网友

2楼 · 编辑于 2024-05-23 14:33:53

您仍然可以使用sklearn.metrics.pairwise方法处理稀疏矩阵/数组：

# I've executed your example up to (including):
# ...
clf.fit(df['a'] + " " + df['b'])

A = clf.transform(df['a'])

B = clf.transform(df['b'])

from sklearn.metrics.pairwise import *

paired_cosine_distances将向您显示字符串有多远或有多大差异（比较两列中的值“逐行”）

0-表示完全匹配

^{pr2}$

cosine_similarity将比较第a列的第一个字符串与第b（行1）中的所有字符串；第二个列a与第{}（行2）中的所有字符串，依此类推。。。在

In [137]: cosine_similarity(A, B)
Out[137]:
array([[ 0.        ,  1.        ,  0.        ,  0.        ],
       [ 1.        ,  0.        ,  0.74162106,  0.        ],
       [ 0.43929881,  0.        ,  0.72562753,  0.        ],
       [ 0.        ,  0.        ,  0.        ,  1.        ]])

In [141]: A
Out[141]:
<4x10 sparse matrix of type '<class 'numpy.float64'>'
        with 12 stored elements in Compressed Sparse Row format>

In [142]: B
Out[142]:
<4x10 sparse matrix of type '<class 'numpy.float64'>'
        with 12 stored elements in Compressed Sparse Row format>

注意：所有的计算都是用稀疏的矩阵完成的-我们没有在内存中解压缩它们！在

相关问题更多 >

编程相关推荐

热门问题

热门文章