我有一个包含数千行的数据集。每行是一个人,我需要将其插入4个集群。我知道有很多可能做到这一点,并找到最好的集群,但在这种情况下,我知道每个集群的特征。一般来说,对于ML,集群是通过IA找到的
例如,假设我有4列要查看:金钱支出、薪水、部门、购买天数。此外,我有:
集群1->金钱支出:350-700
工资:700-1000英镑
细分市场:farmacy
购买天数:12天
集群2->金钱支出:500-950
工资:1000-1300
细分市场:建筑材料
购买天数:18天
集群3->金钱支出:900-1400
工资:1200-2000
细分市场:超市
购买天数:20天
集群4->金钱支出:250-600
工资:550-1000英镑
细分市场:farmacy
购买天数:30天
将此应用于我的数据集的最佳方法是什么?我会使用k-nearest,但我不知道如何使用集群信息
有人能帮我吗
另外:如果我有更多的列或更多的集群,这个解决方案会继续工作吗
编辑:我的原始数据集只有列。集群是已知的,但不在数据集中。作业正是将此群集信息应用于数据集。我不知道该怎么做
您可以尝试以下方法:
运行K means并使用肘部法或轮廓图找到最佳K数
将簇标签用作类。 e、 g.如果4是集群的最佳数量,则类=0,1,2,3(这将是集群标签)
将类与原始数据集合并,并将其视为监督学习问题
试着在列车测试分离后运行任何分类模型
请参阅分类报告以检查模型性能
PS
尝试过多地使用标准化数据,因为许多聚类算法对异常值很敏感
请查看该类是否在某种程度上均匀分布,如10008001150890,而不是150080150等等,因为这将为分类器创建数据不平衡
相关问题 更多 >
编程相关推荐