Scikit learn-ValueError：输入包含NaN、infinity或对于带有随机前导的dtype（'float32'）来说太大的值

import pandas as pd from sklearn import ensemble import numpy as np def azureml_main(dataframe1 = None, dataframe2 = None): # Execution logic goes here Input = dataframe1.values[:,:] InputData = Input[:,:15] InputTarget = Input[:,16:] limitTrain = 2175 clf = ensemble.RandomForestClassifier(n_estimators = 10000, n_jobs = 4 ); features=np.empty([len(InputData),10]) j=0 for i in range (0,14): if (i == 1 or i == 4 or i == 5 or i == 6 or i == 8 or i == 9 or i == 10 or i == 11 or i == 13 or i == 14): features[:,j] = (InputData[:, i]) j += 1 clf.fit(features[:limitTrain,:],np.asarray(InputTarget[:limitTrain,1],dtype = np.float32)) res = clf.predict_proba(features[limitTrain+1:,:]) listreu = np.empty([len(res),5]) for i in range(len(res)): if(res[i,0] > 0.5): listreu[i,4] = 0; elif(res[i,1] > 0.5): listreu[i,4] = 1; elif(res[i,2] > 0.5): listreu[i,4] = 2; else: listreu[i,4] = 3; listreu[:,0] = features[limitTrain+1:,0] listreu[:,1] = InputData[limitTrain+1:,2] listreu[:,2] = InputData[limitTrain+1:,3] listreu[:,3] = features[limitTrain+1:,1] # Return value must be of a sequence of pandas.DataFrame return pd.DataFrame(listreu),

3条回答

网友

1楼 · 编辑于 2024-05-13 02:32:15

前一段时间，当我在参数中使用显式的CPU数量时，我得到了不稳定的错误，比如你的n_jobs=4。尝试完全不使用n_jobs，或者使用n_jobs=-1进行自动CPU计数检测。也许会有帮助。

网友

2楼 · 编辑于 2024-05-13 02:32:15

我想在你的数据框中，你有时会有nan值。

只需使用

dataframe1 = dataframe1.dropna()

但是，使用这种方法，您可能会丢失一些有价值的训练数据，因此可能需要查看.fillna（）或sklearn.preprocessing.Imputer，以便为df中的nan单元格增加一些值。

如果看不到dataframe1的来源，很难给出完整的答案，但有可能是某种类型的列正在进行测试拆分，导致数据帧在某些时候只传递了nan值。

网友

3楼 · 编辑于 2024-05-13 02:32:15

既然我纠正了编辑的问题，我就没有错误了。我只将3.0x10^-314值替换为零。

相关问题更多 >

编程相关推荐

热门问题

热门文章