ColumnTransformer与管道中的CountVector一起失败

data = pd.DataFrame(data={'text_feat':['This is my first sentence.','This is my second.'], 'numeric_feat':[1,2], 'target':[3,4]}) X = data.loc[:,['text_feat', 'numeric_feat']] y = data.loc[:,'target'] # first pipeline text_features = ['text_feat'] text_transformer = Pipeline( steps = [('vec', CountVectorizer())]) # wrap in ColumnTransformer preprocessor = ColumnTransformer( transformers=[('text', text_transformer, text_features)]) # second pipeline pipeline = Pipeline(steps=[('preprocessor', preprocessor)]) # single pipeline works as expected X_expected = text_transformer.fit_transform(X['text_feat']) # but this fails X_test = pipeline.fit_transform(X) print('Expected:') print(X_expected.toarray()) print('Got:') print(X_test)

1条回答

网友

1楼 · 发布于 2024-05-20 01:53:14

您可以使用make\u column\u transformer并执行以下操作。其余的是您可以应用其他转换的其余特征。默认情况下，remains设置为“drop”，这意味着没有任何转换的剩余功能将被删除：

preprocess = make_column_transformer((CountVectorizer(), 'text_feat'), remainder='passthrough') make_pipeline(preprocess).fit_transform(X)

以下博客提供了更多细节： https://jorisvandenbossche.github.io/blog/2018/05/28/scikit-learn-columntransformer/

关于代码的一些提示：转换特征时，不需要（读：不应该）传递y（即目标）。代码中的问题是因为传递的是文本特性列表，而不是列的名称。如果您稍微更改代码，应该会得到相同的结果。你知道吗

preprocessor = ColumnTransformer( transformers=[('text', text_transformer, 'text_feat')])

相关问题更多 >

编程相关推荐

热门问题

热门文章