计算LSA时出现“需要2D数组，需要1D数组”错误

import pandas as pd import nltk import string import sklearn from sklearn.decomposition import TruncatedSVD from sklearn.preprocessing import Normalizer from sklearn.feature_extraction.text import TfidfVectorizer def LSA(data, tfidf = True, remove_stopwords=True): # done with stop word removal and tf-idf weighting keeping the 100 most common concepts text = data.iloc[:,-1] #isolate text column #Define the LSA function vectors = sklearn.decomposition.TruncatedSVD(n_components = 2, algorithm = 'randomized', n_iter = 100, random_state = 100) vectors.fit(text.tolist()) svd_matrix = vectors.fit_transform(text.tolist()) svd_matrix = Normalizer(copy=False).fit_transform(text.tolist()) dense = svd_matrix.todense() denselist = dense.tolist() data["cleaned_vectorized_document"] = denselist return data

1条回答

网友

1楼 · 发布于 2024-04-20 03:27:23

我不确定这是否是您的问题，但您的数组在项之间缺少逗号，这至少会引发以下错误：

ValueError: arrays must all be same length

请尝试以下方法：

p = pd.DataFrame({'two':[1,2,3,4],'test':['I ate dinner at Olive Garden', 'we are buying a house', 'I did not eat dinner at Olive Garden', 'our neighbors are buying a house']})

相关问题更多 >

编程相关推荐

热门问题

热门文章