Scikit学习自定义变压器尺寸不匹配

1条回答

网友

1楼 · 发布于 2024-04-23 19:44:30

将您的列图表更改为：

class ColumnNgram(BaseEstimator, TransformerMixin):
    def __init__(self, colname, tokenizer, ngram_rg):
        self.colname = colname
        self.tokenizer = tokenizer
        self.ngram_rg = ngram_rg
        self.tfidf = None

    def transform(self, df, y=None):
        return self.tfidf.transform(df[self.colname].values)

    def fit(self, df, y=None):
        self.tfidf = TfidfVectorizer(tokenizer=self.tokenizer, ngram_range=self.ngram_rg)
        self.tfidf.fit(df[self.colname].values)
        return self

您应该在fit()中声明并了解培训数据。目前，您正在重新拟合对transform()的每个调用中的数据，这显然将在train和validation集中以不同的特性返回，正如您所建议的那样。在

正确的方法是保留一个TfidfVectorizer，它在fit（）期间学习数据，然后只转换transform()中的新数据，而不是重新拟合新数据。在

相关问题更多 >

编程相关推荐

热门问题

热门文章

Scikit学习自定义变压器尺寸不匹配

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >