如何在文本分类中实现多输出?

2024-04-19 10:04:03 发布

您现在位置:Python中文网/ 问答频道 /正文

我在做方言文本分类。问题是有些微博,既可以分为方言A,也可以分为方言B,我该怎么办?我想这样做,然后自动计算的准确性,我不想这样做手动。当我不把它们同时归类为A和B的时候,它会给我很多错误的分类文本。你知道吗

不过,在训练中,他们并没有同时被归类为方言A和方言B,而是被分开。你知道吗


Tags: 文本错误分类手动准确性方言
1条回答
网友
1楼 · 发布于 2024-04-19 10:04:03

利用OneHotEncoding

from sklearn.preprocessing import LabelEncoder
from sklearn.preprocessing import OneHotEncoder

# Your target will look similar to
target = ['A', 'A', 'B']

# After OneHotEncoding
[[1, 0],
 [1, 0],
 [0, 1]]

在对这个目标进行训练之后,你的模型将预测该类的概率。您可以设置一个阈值来将预测分类为两个类

# Sample output
[[1., 0.],
 [0.5, 0.5],
 [0.1, 0.9]]

predictions = ['A', 'A and B', 'B']

Example

相关问题 更多 >