监督学习数据的模拟框架。这些功能的具体设计是为了让用户获得最大的自由度,最终达到研究的目的。此外,可以在本地和全局级别上创建仿真的特征重要性。例如,对于基准特征选择算法来说,这是特别有趣的。
xyp的Python项目详细描述
模拟监督学习数据
使用xypy.Xy()
可以方便地模拟有监督的学习数据,例如回归和分类问题。
仿真可以非常具体,因为用户有很多自由度。例如,函数
非线性的形状也是用户定义的。相互作用可以形成和(共同)变化。为了更多
您可以访问我们的blog的具体动机。
我已经从我的r版本改编了这个包,您可以查看here。
使用量
您可以使用以下命令通过pypi方便地安装包。
pip install xypy
我的GitHub上有一个示例测试脚本,您可以从中开始 在模拟中。
模拟数据
您可以使用交互和用户指定的非线性来模拟回归和分类数据。与
参数stn
可以改变模拟的信噪比。我强烈鼓励你
读这个blog post,
我分析了不同信噪比的ols系数。
# load the library
from xypy import Xy
# simulate regression data
my_sim = Xy(n = 1000,
numvars = [10,10],
catvars = [3, 2],
noisevars = 50,
stn = 100.0)
# get a glimpse of the simulation
my_sim
# plot the true underlying effects
my_sim.plot()
# extract the data
X, y = my_sim.data
# extract the true underlying model weights
my_sim.coef_
功能选择
您可以提取模拟的特征重要性。例如,对特征选择算法进行基准测试。 你可以阅读我用这个特性做的一个小基准 在我们的blog上。 在python中也可以轻松地执行相同的分析。
# Feature Importance
my_sim.varimp()
请随时向我提供意见和想法。