我正在尝试构建一个新的数据集进行分析,其中我需要从原始数据集中删除所有非零的重要特性
预处理后,我的数据集形状为(6117613047)
我发现所有功能的重要性如下:
clf_features = DecisionTreeClassifier(min_samples_split=2,class_weight = 'balanced')
clf_features.fit(x_trn_tfidf, y_train)
我得到了numpy阵列中所有功能的功能重要性
现在我需要删除所有非零的重要特性(例如,对于小于0.001的eg值),并创建一个新的数据集
有人能建议怎么做吗
目前没有回答
相关问题 更多 >
编程相关推荐