Python中的集群

2024-05-16 04:01:19 发布

您现在位置:Python中文网/ 问答频道 /正文

我有一个包含数千行的数据集。每行是一个人,我需要将其插入4个集群。我知道有很多可能做到这一点,并找到最好的集群,但在这种情况下,我知道每个集群的特征。一般来说,对于ML,集群是通过IA找到的

例如,假设我有4列要查看:金钱支出、薪水、部门、购买天数。此外,我有:

集群1->金钱支出:350-700
工资:700-1000英镑
细分市场:farmacy
购买天数:12天

集群2->金钱支出:500-950
工资:1000-1300
细分市场:建筑材料
购买天数:18天

集群3->金钱支出:900-1400
工资:1200-2000
细分市场:超市
购买天数:20天

集群4->金钱支出:250-600
工资:550-1000英镑
细分市场:farmacy
购买天数:30天

将此应用于我的数据集的最佳方法是什么?我会使用k-nearest,但我不知道如何使用集群信息

有人能帮我吗

另外:如果我有更多的列或更多的集群,这个解决方案会继续工作吗

编辑:我的原始数据集只有列。集群是已知的,但不在数据集中。作业正是将此群集信息应用于数据集。我不知道该怎么做


Tags: 数据gt信息市场情况集群特征ml
1条回答
网友
1楼 · 发布于 2024-05-16 04:01:19

您可以尝试以下方法:

  1. 运行K means并使用肘部法或轮廓图找到最佳K数

  2. 将簇标签用作类。 e、 g.如果4是集群的最佳数量,则类=0,1,2,3(这将是集群标签)

  3. 将类与原始数据集合并,并将其视为监督学习问题

  4. 试着在列车测试分离后运行任何分类模型

  5. 请参阅分类报告以检查模型性能

PS

  • 尝试过多地使用标准化数据,因为许多聚类算法对异常值很敏感

  • 请查看该类是否在某种程度上均匀分布,如10008001150890,而不是150080150等等,因为这将为分类器创建数据不平衡

相关问题 更多 >