是否可以在Python（ScikitLearn）中用KMeans对非浮动数据进行集群？

from sklearn.cluster import KMeans import matplotlib.pyplot as plt import numpy as np import matplotlib from sklearn.preprocessing import LabelEncoder import pandas as pd matplotlib.style.use('ggplot') df = pd.read_csv('df.csv') encoder =LabelEncoder() Longitude = encoder.fit_transform(df.Longitude) Latitude= df[df.columns[19]].values #(latitude) x=np.array([Longitude, Latitude]).T est = KMeans(3) est.fit(df[['Longitude', 'Latitude', 'Description']])

2条回答

网友

1楼 · 编辑于 2024-04-26 22:14:25

K均值算法只适用于数值数据。您可以将LabelEncoder应用于“Description”字段，将其转换为类id

同时将LabelEncoder应用于经度/格度并不是最佳的，因为这样就失去了两点之间有多近的概念。相反，您应该在K-means之前对数据应用StandardScaler，以规范化不同字段的相对权重。在

网友

2楼 · 编辑于 2024-04-26 22:14:25

我已经成功地使用kmodes和kprototype对分类数据进行了聚类。这里有一个python实现：https://github.com/nicodv/kmodes。Kmodes允许对分类数据进行聚类，kprototype可以对分类数据和数值数据进行聚类（kmeans和Kmodes的混合）。github页面的示例用法

import numpy as np
from kmodes.kmodes import KModes

# random categorical data
data = np.random.choice(20, (100, 10))

km = KModes(n_clusters=4, init='Huang', n_init=5, verbose=1)

clusters = km.fit_predict(data)

# Print the cluster centroids
print(km.cluster_centroids_)

kmode只是基于点之间的公共类别进行聚类。kprototype的距离度量的简化摘要是

^{pr2}$

其中a_num和{}是两点的数值，a_cat和{}是范畴值。gamma是类别差异与数值距离的成本加权。默认值为数值特征标准偏差的一半（=0.5，如果事先将数值特征标准化）。在

相关问题更多 >

编程相关推荐

热门问题

热门文章