我发现了一些非常有用的代码来迭代测试一组聚类算法。示例代码运行良好。我想知道我是否可以更改一行代码来输入我的实际数据集
From:
blobs = datasets.make_blobs(n_samples=n_samples, random_state=8)
To:
blobs = myowndataset
因此,“myowndataset”包含一些分类数据和数字数据。我可以轻松地对分类数据进行热编码。我只是想知道是否有可能这样做。在示例代码中,所有内容都是数字。而且,'datasets.make_blobs'
似乎由两个数组组成,X和y。这就是它的工作原理吗
代码来自这里
https://scikit-learn.org/0.18/auto_examples/cluster/plot_cluster_comparison.html
您必须搜索为您保存数据集的文件夹部分,对我来说是这样的:
C:\Users\...\scikit_learn_data
,如果它具有相同的格式,您可以将其保存在那里并加载以保持相同的代码结构。如果无法直接从web访问数据集,也可以使用此方法另一个选项是重写代码,并使用公共pandas库
pd.read_csv
加载数据并将其转换为正确的格式相关问题 更多 >
编程相关推荐