给定数据集,如何选择学习算法?

2024-06-07 07:54:08 发布

您现在位置:Python中文网/ 问答频道 /正文

我必须建立一个ML模型,将句子分为不同的类别。我有一个数据集,有两列(句子和标签)和350行,即形状(350,2)。为了将句子转换为数字表示,我使用了TfIdf矢量化,因此转换后的数据集现在有452列(451列是使用TfIdf获得的,1是标签),即带有形状(350452)。更一般地说,我有一个数据集,它的特征比训练样本多得多。在这种情况下,最好的分类算法是什么?逻辑回归,支持向量机(又是什么内核?),神经网络(又是哪种体系结构?),朴素贝叶斯或者还有其他算法吗

如果将来我得到更多的训练样本(但列的数量不会增加太多),比如一个形状(10000750),怎么样

编辑:这些句子实际上是来自银行对账单的叙述。我有大约10到15个标签,所有这些标签都是我手动标记的。税务、银行手续费、贷款等。将来我确实计划得到更多的对账单,我也会给它们贴标签。我相信我最终可能最多有20个标签


Tags: 数据模型算法数字银行特征标签类别
1条回答
网友
1楼 · 发布于 2024-06-07 07:54:08

对于这样一个小的训练集,我认为只有通过获得一些预先训练过的语言模型(如GPT-2)并对问题进行微调,才能得到合理的结果。即使对于一个更大的数据集,这可能仍然是正确的,即使你从头开始训练自己,神经网络可能仍然会做得最好。顺便问一下,你有多少标签?那些是什么样的标签

相关问题 更多 >

    热门问题