这是一个有负载的问题,这是我第一次“现实生活”的机器学习实验,如此简单的问题。
我的USPTO批量数据在CSV文件中如下所示:
Name Class Subclass Category Subcategory
Lightpack circuitboard E 1 4 9
Lego blocks F 2 56 12
D/C connector E 3 4 1
Colorful dog hat D 6 10 1
Grandma's shoes D 2 11 1
Low temp resistor O 2 4 10
我想要的是能够运行一个有监督的机器学习环境来对常见的对象进行分组(在我的实际数据中有很多比这更多的,但这是一个简单的例子)。我希望能够在所有电子中找到一组常见的类、子类、类别和子类别,并将它们分组到一个电子“箱子”(即:Lightpack电路板、D/C连接器,和低温电阻),但不确定如何继续。
目前,我正在使用Python和sklearn来进行更简单的建模,但不确定如何在给定的4个参数下进行测试和训练,而且我没有可比较的标记集(没有验证)。
创建一个伪标签集以使其受监督是更明智的还是有一个无监督的方法我可以采取?正如我之前所说的,这是我在ML中的第一个真正的测试
无监督算法是你需要去做的。(Why so?)
这里您需要理解的关键概念是Multivariate distances是什么以及如何计算它们。然后可以应用K-means集群。在
您也可以阅读并使用PCA。您可能需要缩放变量才能使PCA正常工作。在
正如正确指出的那样,您可以使用任何一种聚类算法(K-均值或其变体、层次聚类、EM算法)。该过程遵循一种简单易行的方法将数据点分类到一定数量的簇。由于聚类数是未知的,对于K意味着可以尝试用不同级别的K,并用Elbow方法选择一个最合适的或者层次聚类将允许你找到最好的K
相关问题 更多 >
编程相关推荐