我可以用特定的数据集替换“make_blob”吗?

2024-05-16 10:37:01 发布

您现在位置:Python中文网/ 问答频道 /正文

我发现了一些非常有用的代码来迭代测试一组聚类算法。示例代码运行良好。我想知道我是否可以更改一行代码来输入我的实际数据集

From:
    blobs = datasets.make_blobs(n_samples=n_samples, random_state=8)

To:
    blobs = myowndataset

因此,“myowndataset”包含一些分类数据和数字数据。我可以轻松地对分类数据进行热编码。我只是想知道是否有可能这样做。在示例代码中,所有内容都是数字。而且,'datasets.make_blobs'似乎由两个数组组成,X和y。这就是它的工作原理吗

代码来自这里

https://scikit-learn.org/0.18/auto_examples/cluster/plot_cluster_comparison.html


Tags: 数据代码from算法示例make分类数字
1条回答
网友
1楼 · 发布于 2024-05-16 10:37:01

您必须搜索为您保存数据集的文件夹部分,对我来说是这样的:C:\Users\...\scikit_learn_data,如果它具有相同的格式,您可以将其保存在那里并加载以保持相同的代码结构。如果无法直接从web访问数据集,也可以使用此方法

另一个选项是重写代码,并使用公共pandas库pd.read_csv加载数据并将其转换为正确的格式

相关问题 更多 >