什么Python sklearn函数可以接受非数值型的训练目标?

2024-03-29 01:45:51 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在学习example。你知道吗

我注意到他们使用了被动渐进分类器,可以接受非数字的y\u序列值。我知道在自然语言处理(NLP)中,我们需要将字符串训练文本转换为数字数组作为训练输入,以便神经网络模型能够接受它,但是为什么训练目标不需要转换为数字呢?还有哪些模型可以接受非数字训练目标?你知道吗

#Initialize a PassiveAggressiveClassifier
pac=PassiveAggressiveClassifier(max_iter=50)
pac.fit(tfidf_train,y_train) 

Tags: 字符串模型文本目标nlp分类器exampletrain
1条回答
网友
1楼 · 发布于 2024-03-29 01:45:51

这里有两种情况:
-在执行分类任务时,类别的名称无关紧要,因为它们之间没有距离的概念。例如,如果您正在进行逻辑回归,则可以将肯定的答案标记为“是”、“肯定”或“1”,将否定的答案标记为“否”、“否定”或“0”。这绝对不会影响你的模特训练方式。
-在训练NLP模型时,需要在词汇表的单词上定义一些距离。例如,您想知道“car”与“bus”类似,但“car”与“apple”不同。最好的方法是将它们表示为向量,根据它们的语义,它们之间或多或少会有距离(我们在这里使用向量上的欧几里德距离)。这就是为什么我们给NLP模型这个词的表示法:你想让你的模型理解‘car’和‘bus’很接近,如果你把它们作为词来保存,这是不可能的。你知道吗

注意:任何分类任务都可以将单词作为标签。你知道吗

有关单词的向量表示(即单词嵌入)的更多详细信息,请参见https://papers.nips.cc/paper/5021-distributed-representations-of-words-and-phrases-and-their-compositionality.pdf。你知道吗

相关问题 更多 >