获取转换后用于分类的最重要特征的名称

columns_for_vectorization = ['A', 'B', 'C', 'D', 'E'] columns_for_normalization = ['F', 'G', 'H'] transformerVectoriser = ColumnTransformer(transformers=[('Vector Cat', OneHotEncoder(handle_unknown = "ignore"), columns_for_vectorization), ('Normalizer', Normalizer(), columns_for_normalization)], remainder='passthrough') # Default is to drop untransformed columns

x_train, x_test, y_train, y_test = train_test_split(features, results, test_size = 0.25, random_state=0) x_train = transformerVectoriser.fit_transform(x_train) x_test = transformerVectoriser.transform(x_test)

2条回答

网友

1楼 · 编辑于 2024-04-19 07:54:17

尝试以下操作以获取“Vector Cat”transformer处理过的功能的名称：

VectorCatNames = list(transformerVectoriser.transformers_[0][1]['Vector Cat'].get_feature_names(columns_for_vectorization))

然后，最终功能的名称可以另存为：

feature_names = VectorCatNames + columns_for_normalization

网友

2楼 · 编辑于 2024-04-19 07:54:17

这github gist似乎表示可以通过以下方法获得拟合/变换后的列：

numeric_features = X.select_dtypes(np.number).columns

enc_cat_features = transformerVectorizer.named_transformers_['Vector cat'].get_feature_names()
labels = np.concatenate([numeric_features, enc_cat_features])
transformed_df_X = pd.DataFrame(preprocessor.transform(X_train).toarray(), columns=labels)
# To access your data - transformed_df_X
# To access your columns - transformed_df_X.columns

如果由于“subscriptable”错误而无法通过ColumnTransformer使其正常工作，则可以直接在OneHotEncoder对象上执行此操作

通常我也会在事后处理这些名称，因为OneHotEncoder会自动给出难看的名称

无论如何，一旦您可以访问X.columns东西，您就可以对功能重要性做任何您喜欢的事情。我用功能名称绘制它们的示例代码使用了permutation_importance，但显然feature_importance给出了相同的结构，因此您可能会有一些运气，这对您来说很有用

from sklearn.inspection import permutation_importance
import matplotlib.pyplot as plt

def plot_feature_importance(model, X_train, y_train, feature_names):
   result = permutation_importance(model, X_train, y_train, n_repeats=10)
   perm_sorted_idx = result.importances_mean.argsort()

   fig, ax2 = plt.subplots(1, 1, figsize=(5, 15))
   ax2.boxplot(result.importances[perm_sorted_idx].T, vert=False,
               labels=feature_names[perm_sorted_idx])
   fig.tight_layout()
   plt.show()

在带有随机林的UCI ML horse colic集合上，这给了我一个带有分类&；数字名称如下：

相关问题更多 >

编程相关推荐

热门问题

热门文章