scikit learn laboratory使使用scikit learn运行机器学习实验变得更容易。
skll的Python项目详细描述
这个python包提供了命令行实用程序,使其更易于运行 scikit学习的机器学习实验。的主要目标之一 我们的项目是使您可以运行scikit学习实验 实际上需要编写除用于生成/提取的代码以外的任何代码 特征。
命令行界面
我们提供的主要实用程序名为run_experiment,它可以用于 在配置文件中指定的数据集上轻松运行一系列学习程序 例如:
[General]experiment_name=Titanic_Evaluate_Tuned# valid tasks: cross_validate, evaluate, predict, traintask=evaluate[Input]# these directories could also be absolute paths# (and must be if you're not running things in local mode)train_directory=traintest_directory=dev# Can specify multiple sets of feature files that are merged together automatically# (even across formats)featuresets=[["family.ndj", "misc.csv", "socioeconomic.arff", "vitals.csv"]]# List of scikit-learn learners to uselearners=["RandomForestClassifier", "DecisionTreeClassifier", "SVC", "MultinomialNB"]# Column in CSV containing labels to predictlabel_col=Survived# Column in CSV containing instance IDs (if any)id_col=PassengerId[Tuning]# Should we tune parameters of all learners by searching provided parameter grids?grid_search=true# Function to maximize when performing grid searchobjectives=['accuracy'][Output]# Also compute the area under the ROC curve as an additional metricmetrics=['roc_auc']# The following can/should be absolute pathslog=outputresults=outputpredictions=outputmodels=output
有关开始使用run_experiment的详细信息,请检查 输出our tutorial,或 our config file specs。
我们还提供以下实用程序:
python api
如果你只是想避免编写大量样板学习代码,你可以 还可以使用我们的简单python api,它还支持pandas数据帧。 使用api的主要方法是 Learner和Reader类。有关我们的api的更多详细信息,请参见 the documentation。
虽然我们的api可以广泛地使用,但应该注意的是,命令行 实用程序是使用skll的主要方式。这个api只是一个很好的 我们发展公用事业的副作用。
发音注意事项
scikit learn laboratory(skll)的发音是“骷髅”:这就是学习的地方 发生。
要求
- Python2.7+
- scikit-learn
- six
- PrettyTable
- BeautifulSoup 4
- Grid Map(仅当您计划 在兼容drmaa的集群上并行运行)
- joblib
- ruamel.yaml
- configparser(仅适用于 Python2.7)
- logutils(仅适用于python 2.7)
- mock(仅适用于python 2.7)
对于其他功能,可以选择安装以下软件包 但不是必需的:
谈话
书籍
skll在Data Science at the Command Line中出现 通过Jeroen Janssens。