在ngram模型(字符ngram或单词包)中,我们需要确保测试数据的词汇表不用于拟合或训练模型。你知道吗
这就是skefidfvectorizer函数对这两个函数(fit和transform)所做的操作。你知道吗
所以,如果我有一个sklearn管道模型:
model = Pipeline([
('tfidf', TfidfVectorizer()),
('svc', SVC())
])
我把它传递给交叉验证函数:
cv = cross_val_score(model, data['text'], data['label'], cv=5, scoring='accuracy', n_jobs=-1)
交叉评分是否符合情景(适合训练。。然后,在测试中变换)在每个折叠中?你知道吗
或者刚开始时只适合模型一次(第一次折叠)?你知道吗
是的,为每个cv步骤运行管道,因此对于cv的每个步骤,tfidf拟合仅对train褶皱进行,并对测试和测试褶皱进行变换
相关问题 更多 >
编程相关推荐