创建健壮python项目课程的datacamp工具
datacamprojects的Python项目详细描述
python包datacamprojects
跳过scikit学习机器学习示例的样板。
安装
pip install datacamprojects
用法
在shell环境中,可以运行datacamprojects
没有参数执行逻辑回归
在digits
数据集上。
这将产生一个10 x 10的混淆矩阵 准确度得分最高。
也可以在命令行向datacamprojects传递参数。
例如,
datacamprojects -dataset diabetes -model linear_model.Lasso
# Or
datacamprojects -d diabetes -m linear_model.Lasso
将用套索正则化进行线性回归(L1)
在diabetes
数据集上。
参数dataset
可以是
以下内置SCIKIT学习数据集:
- 回归
boston
diabetes
- 分类
digits
iris
wine
breast_cancer
参数model
引用scikit learn中的模型类型和名称。
第一部分是子模块,例如
linear_model
naive_bayes
ensemble
svm
而第二个是实际导入的内容,例如
LinearRegression
GaussianNB
RandomForestRegressor
SVC
将代码简化为每个步骤的单个函数调用:
fromsklearn.metricsimportconfusion_matrix,accuracy_scoreimportdatacamprojectsasdcpdataset=dcp.get_data('digits')x_train,x_test,y_train,y_test=dcp.split_data(dataset)model=dcp.get_model(model_type='ensemble',model_name='RandomForestClassifier')fit=model.fit(x_train,y_train)dcp.pickle_model(filename='digits_rf.pickle',model=fit)predictions=fit.predict(x_test)confmat=confusion_matrix(y_true=y_test,y_pred=predictions)accuracy=accuracy_score(y_true=y_test,y_pred=predictions)dcp.confusion_matrix_plot(cm=confmat,acc=accuracy,filename='digits_rf.png')
或者使用一个函数运行整个管道:
importdatacamprojectsasdcpdcp.classification(dataset='digits',model_type='ensemble',model_name='RandomForestClassifier',pickle_name='digits_rf.pickle',plot_name='digits_rf.png')
要获得灵感,请查看 pipeline folder 的 datacamprojects repo。