从头开始的朴素贝叶斯分类器

import numpy as np class GaussianNaiveBayes: def fit(self, X, y): n_samples, n_features = X.shape self._classes = np.unique(y) n_classes = len(self._classes) self._mean = np.zeros((n_classes, n_features), dtype=np.float64) self._var = np.zeros((n_classes, n_features), dtype=np.float64) self._priors = np.zeros(n_classes, dtype=np.float64) # calculating the mean, variance and prior P(H) for each class for i, c in enumerate(self._classes): X_for_class_c = X[y==c] self._mean[i, :] = X_for_class_c.mean(axis=0) self._var[i, :] = X_for_class_c.var(axis=0) self._priors[i] = X_for_class_c.shape[0] / float(n_samples) #function for calculating the likelihood, P(E|H), of data X given the mean and variance def _calculate_likelihood(self, class_idx, x): mean = self._mean[class_idx] var = self._var[class_idx] num = np.exp(- (x-mean)**2 / (2 * var)) denom = np.sqrt(2 * np.pi * var) return num / denom #classifications by calculating the posterior probability, P(H|E), of the classes def predict(self, X): y_pred = [self._classify_sample(x) for x in X] return np.array(y_pred) def _classify_sample(self, x): posteriors = [] # calculating posterior probability for each class for i, c in enumerate(self._classes): prior = np.log(self._priors[i]) posterior = np.sum(np.log(self._calculate_likelihood(i, x))) posterior = prior + posterior posteriors.append(posterior) # return the class with highest posterior probability return self._classes[np.argmax(posteriors)]

iris = datasets.load_iris() X = pd.DataFrame(iris.data, columns = iris.feature_names) y = pd.DataFrame(iris.target, columns = ['Target']) X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.2,random_state = 42) nb = GaussianNaiveBayes() nb.fit(X_train, y_train) predictions = nb.predict(X_test)

1条回答

网友

1楼 · 发布于 2024-05-13 21:20:14

您需要正确缩进代码，并且当y是数据帧时，这一行对X数组进行子集设置将不起作用：

X_for_class_c = X[y==c]

同样，此函数也不适用于数据帧：

y_pred = [self._classify_sample(x) for x in X]

让我们适当地缩进它：

import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn import datasets

class GaussianNaiveBayes:
    def fit(self, X, y):
        n_samples, n_features = X.shape
        self._classes = np.unique(y)
        n_classes = len(self._classes)
        self._mean = np.zeros((n_classes, n_features), dtype=np.float64)
        self._var = np.zeros((n_classes, n_features), dtype=np.float64)
        self._priors =  np.zeros(n_classes, dtype=np.float64)

        for i, c in enumerate(self._classes):
            X_for_class_c = X[y==c]
            self._mean[i, :] = X_for_class_c.mean(axis=0)
            self._var[i, :] = X_for_class_c.var(axis=0)
            self._priors[i] = X_for_class_c.shape[0] / float(n_samples)

    def _calculate_likelihood(self, class_idx, x):
        mean = self._mean[class_idx]
        var = self._var[class_idx]
        num = np.exp(- (x-mean)**2 / (2 * var))
        denom = np.sqrt(2 * np.pi * var)
        return num / denom 
 
    def predict(self, X):
        y_pred = [self._classify_sample(x) for x in X]
        return np.array(y_pred)

    def _classify_sample(self, x):
        posteriors = []
         
        for i, c in enumerate(self._classes):
            prior = np.log(self._priors[i])
            posterior = np.sum(np.log(self._calculate_likelihood(i, x)))
            posterior = prior + posterior
            posteriors.append(posterior)
         
        return self._classes[np.argmax(posteriors)]

首先使用您的示例运行fit，您可以看到所有值的fit返回nan：

iris = datasets.load_iris()
X = pd.DataFrame(iris.data, columns = iris.feature_names)
y = pd.DataFrame(iris.target, columns = ['Target'])
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.2,random_state = 42)

nb = GaussianNaiveBayes()
nb.fit(X_train, y_train)

nb._mean

array([[nan, nan, nan, nan],
       [nan, nan, nan, nan],
       [nan, nan, nan, nan]])

更改输入：

iris = datasets.load_iris()
X = iris.data
y = iris.target
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.2,random_state = 42)
    
nb = GaussianNaiveBayes()
nb.fit(X_train, y_train)
nb.predict(X_test)

array([1, 0, 2, 1, 1, 0, 1, 2, 1, 1, 2, 0, 0, 0, 0, 1, 2, 1, 1, 2, 0, 2,
       0, 2, 2, 2, 2, 2, 0, 0])

相关问题更多 >

编程相关推荐

热门问题

热门文章