ValueError: operands could not be broadcast together with shapes in Naive bayes classifi ValueError: 操作数的形状不能与朴素贝叶斯分类中进行广播

import numpy as np import pandas as pd dataset = pd.read_csv('Ecom.tsv', delimiter = '\t', quoting = 3) import re import nltk nltk.download('stopwords') from nltk.corpus import stopwords from nltk.stem.porter import PorterStemmer corpus = [] for i in range(0, len(dataset)): review = re.sub('[^a-zA-Z]', ' ', dataset['User'][i]) review = review.lower() review = review.split() ps = PorterStemmer() review = [ps.stem(word) for word in review if not word in set(stopwords.words('english'))] review = ' '.join(review) corpus.append(review) # # Creating the Bag of Words model from sklearn.feature_extraction.text import CountVectorizer cv = CountVectorizer() X = cv.fit_transform(corpus).toarray() y = dataset.iloc[:, 1].values # Splitting the dataset into the Training set and Test set from sklearn.cross_validation import train_test_split X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.20, random_state = 0) # Fitting Naive Bayes to the Training set from sklearn.naive_bayes import GaussianNB classifier = GaussianNB() classifier.fit(X_train, y_train) # Predicting the Test set results y_pred = classifier.predict(X_test) # Making the Confusion Matrix from sklearn.metrics import confusion_matrix cm = confusion_matrix(y_test, y_pred)

1条回答

网友
1楼 · 发布于 2024-05-15 11:12:33

你把问题搞定了！在
假设你有一个由33个不同单词组成的语料库，那么在训练时你的单词包将有33列。现在你使用的是另一个只有4个不同单词的语料库。最后得到一个有4列的矩阵，模型不会喜欢的！因此，您需要将第二个语料库放在与开始时相同的单词包矩阵中，共有33列。有不同的方法可以做到这一点，很好地解释了here。在
例如，一种方法是用fit()保存训练时使用的transform对象，然后在测试时应用它（仅transform()）！在

相关问题更多 >

编程相关推荐

热门问题

热门文章