Python中的集群 - 问答 - Python中文网

Python中的集群

2024-05-16 04:01:19 发布

您现在位置：Python中文网/ 问答频道 /正文

男 | 程序猿一只，喜欢编程写python代码。

我有一个包含数千行的数据集。每行是一个人，我需要将其插入4个集群。我知道有很多可能做到这一点，并找到最好的集群，但在这种情况下，我知道每个集群的特征。一般来说，对于ML，集群是通过IA找到的

例如，假设我有4列要查看：金钱支出、薪水、部门、购买天数。此外，我有：

集群1->金钱支出：350-700
工资：700-1000英镑
细分市场：farmacy
购买天数：12天

集群2->金钱支出：500-950
工资：1000-1300
细分市场：建筑材料
购买天数：18天

集群3->金钱支出：900-1400
工资：1200-2000
细分市场：超市
购买天数：20天

集群4->金钱支出：250-600
工资：550-1000英镑
细分市场：farmacy
购买天数：30天

将此应用于我的数据集的最佳方法是什么？我会使用k-nearest，但我不知道如何使用集群信息

有人能帮我吗

另外：如果我有更多的列或更多的集群，这个解决方案会继续工作吗

编辑：我的原始数据集只有列。集群是已知的，但不在数据集中。作业正是将此群集信息应用于数据集。我不知道该怎么做

Tags：数据 gt 信息市场情况集群特征 ml

1条回答

网友

1楼 · 发布于 2024-05-16 04:01:19

您可以尝试以下方法：

运行K means并使用肘部法或轮廓图找到最佳K数
将簇标签用作类。 e、 g.如果4是集群的最佳数量，则类=0,1,2,3（这将是集群标签）
将类与原始数据集合并，并将其视为监督学习问题
试着在列车测试分离后运行任何分类模型
请参阅分类报告以检查模型性能

PS

尝试过多地使用标准化数据，因为许多聚类算法对异常值很敏感
请查看该类是否在某种程度上均匀分布，如10008001150890，而不是150080150等等，因为这将为分类器创建数据不平衡

相关问题更多 >

编程相关推荐

热门问题

热门文章