数据大小的实际限制朴素的贝耶斯伯努林

from sklearn.naive_bayes import BernoulliNB import numpy as np nSamples = 200000 nFeatures = 30000 # Don't care about actual values yet, just data size X = np.random.randint( 2, size = ( nSamples, nFeatures ) ) Y = np.random.randint( 2, size = ( nSamples, ) ) clf = BernoulliNB() clf.fit( X, Y ) res = clf.predict_proba( X[2] )

1条回答

网友

1楼 · 发布于 2024-04-26 23:08:33

你需要计算出有多少数据可以放入内存中。在

如果你的矩阵是稀疏的，你不需要把它分成块。但看起来不像你的。在

分块处理数据

BernoulliNB和许多scikit learn分类器都有一个partial_fit方法来实现这一点（请参见this more complete example）：

clf = BernoulliNB()
   all_classes = [0, 1]
   for X_train, y_train in iter_batches:
       clf.partial_fit(X_train, y_train, classes=all_classes)

其中iter_batches是一个迭代器，它为您提供数据块。
现在你需要确保这些块能放入内存中。在

它有多大？

您可以使用np.array属性计算出np.array的大小：

^{pr2}$

因此，X数组的内存约为480MB。
请注意，如果在加载数据时使用布尔变量并正确指定类型，则可以大大减少占用空间：

X = np.random.randint(2, size=(nSamples,nFeatures)).astype(np.int8)
X.nbytes / 10 ** 6
Out[12]: 60.0

但是np.bool仍然是1字节（8位）。在

您也可以手工计算这些数字：数组大约是nSamples * nFeatures * 1 / 10 ** 6MB。在

剩下的取决于你可用的内存。整个X数组是6GB，但是您需要考虑scikit learn将需要的RAM。 “不应该太多”这是我可以自信地说的；）。
但是，不要忘记将binarize=None传递给BernoulliNB构造函数，以避免X数组的副本（数据已经二进制化）。在

PyTables

您是否需要PyTables？不，但如果你愿意的话，你还是可以用的。 sklearn与numpy数组一起工作，PyTables也可以，因此可以使用它将数据块馈送到partial_fit循环。在

希望这有帮助。在

分块处理数据

它有多大？

PyTables

相关问题更多 >

编程相关推荐

热门问题

热门文章