利用自举岭回归选择特征的函数库
boridge的Python项目详细描述
Boridge软件包
用于为预测模型选择特征和评估预测模型的函数库
包定义
该库对数据进行标准化,选择特征,并评估针对harrel乐观主义修正的所选特征的模型。此函数不处理日期功能,请将日期转换为自引用日期起的时间计数。这个程序实现了lenert、matthew c和colin g.walsh的算法。”平衡性能和可解释性:使用自举岭回归选择特征〉,AMIA年度研讨会论文集。第2018卷。美国医学信息学协会,2018年。
包函数和参数
产生模式()
data frame:输入一个没有丢失值的数据帧。应在通过Boridge Piepline运行数据之前进行插补。使用df.isna().sum()计算缺少的值。
response variable name:数据帧中结果(aka response)变量的列名称(区分大小写)
OutputType:要接收的输出类型选项有:“数据”接收具有Boridge选定特征的设计矩阵的数据帧,“模型”接收Scikit学习拟合模型对象,或“系数”接收(Logit或线性)回归系数和95%置信区间。“data”返回类型返回用于适应最终模型的数据帧。“系数”返回类型返回一个数据帧,其中包含预测值名称、β系数、低95%置信区间和高95%置信区间。默认值为“系数”
interaction variable:如果有一个变量希望添加一个与所有其他预测值的交互项,请提供该列的名称(区分大小写)。只支持一列。默认为无
bootstraps:在引导过程中进行替换的样本总数。默认值为100。
标准化数据:以0为中心将数值数据置于标准偏差刻度上。将Appart分类数据拆分为(类别数-1)虚拟变量。默认值为true
epvthreshold:每个预测器的观测数的护栏。默认值为10
exploretransforms:自动按优先级顺序添加非线性形式的预测值,如log、square、square root、cubic和cubic root。只有当每个预测器的观测数高于epvthreshold时,系统才会添加变换。默认值为false
cStatisticThreshold:在数据帧中报告最终模型系数和条件区间所需的ROC曲线(分类)或解释方差得分(回归)下的最小区域。否则返回空数据帧。默认值为0
在数据文件中允许最大的BRIER分数(分类)或均方误差(回归)允许报告最终模型系数和条件栏间隔。否则返回空数据帧。默认值为1bootstrappercentage:要包含在最终模型中,必须在中找到一个显著的预测器的引导百分比。默认值为1,接受范围为[0,1]。
核心:要用于引导的线程数。默认值为1
相关阈值:可以自动删除彼此高度相关的预测值。为要删除的预测值设置相关系数的阈值。默认值为1。范围为[0,1]
模型类型:评估性能的模型类型。此参数需要字符串数组。默认值为['l1','rf','svm']。L1=套索回归,RF=随机森林,SVM=支持向量机
printprogress:生成程序执行位置的详细输出。默认值为false
errorlogfile:附加错误/警告消息的文件。默认为errorlog.txt
此管道的输出是打印到命令行,函数返回一个包含所有预测系数及其置信区间的数据帧。
采样数据帧(x,n)
拆分类别InToBinary(ModelData,列)
标准化和数据传输(modeldata、responsevariablename、exploretransforms、interactionvariable、epvthreshold、errorlogfile)
FindLinearComBinations(功能、相关阈值、错误日志文件、此文件名)
评估模型(currentmodeldata、responsevariablename、modeltype、cores、bootstraps、outcometype、printprogress、errorlogfile)
引用此包
当使用此软件包进行研究时,请引用“Lenert、Matthew C和Colin G.Walsh”。平衡性能和可解释性:使用自举岭回归选择特征〉,AMIA年度研讨会论文集。第2018卷。美国医学信息学协会,2018年。”