给定数据集，如何选择学习算法？

2024-06-07 07:54:08 发布

男 | 程序猿一只，喜欢编程写python代码。

我必须建立一个ML模型，将句子分为不同的类别。我有一个数据集，有两列（句子和标签）和350行，即形状（350，2）。为了将句子转换为数字表示，我使用了TfIdf矢量化，因此转换后的数据集现在有452列（451列是使用TfIdf获得的，1是标签），即带有形状（350452）。更一般地说，我有一个数据集，它的特征比训练样本多得多。在这种情况下，最好的分类算法是什么？逻辑回归，支持向量机（又是什么内核？），神经网络（又是哪种体系结构？），朴素贝叶斯或者还有其他算法吗

如果将来我得到更多的训练样本（但列的数量不会增加太多），比如一个形状（10000750），怎么样

编辑：这些句子实际上是来自银行对账单的叙述。我有大约10到15个标签，所有这些标签都是我手动标记的。税务、银行手续费、贷款等。将来我确实计划得到更多的对账单，我也会给它们贴标签。我相信我最终可能最多有20个标签

Tags：数据模型算法数字银行特征标签类别

1条回答

网友

1楼 · 发布于 2024-06-07 07:54:08

对于这样一个小的训练集，我认为只有通过获得一些预先训练过的语言模型（如GPT-2）并对问题进行微调，才能得到合理的结果。即使对于一个更大的数据集，这可能仍然是正确的，即使你从头开始训练自己，神经网络可能仍然会做得最好。顺便问一下，你有多少标签？那些是什么样的标签

给定数据集，如何选择学习算法？

相关问题更多 >

编程相关推荐

热门问题

热门文章

给定数据集，如何选择学习算法？

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >