我必须分析完全未知的数值数据(我不知道它涉及什么)。
以下是来自培训数据的一些示例:
'yout': array([[ 0.00000000e+00, -7.87464718e-08, -7.31121013e-08, ...,
-4.20583628e-07, -3.62647412e-07, -2.17680232e-07],
[ -1.13230235e-13, -9.38223846e-05, 8.30087034e-05, ...,
-1.66600921e-07, -2.18490921e-07, 3.85091720e-07],
[ 3.32348250e-06, -1.93950410e-04, 1.54892852e-04, ...,
-7.36868568e-08, -1.41946370e-07, 2.15633282e-07],
...,
[ 9.72858182e-04, 7.22416022e-05, -1.68044656e-05, ...,
-2.90709866e-06, 2.59359588e-06, 3.13502801e-07],
[ 9.71197632e-04, 7.19938095e-05, -1.67844712e-05, ...,
-2.91106565e-06, 2.58013028e-06, 3.30935374e-07],
[ 9.80158036e-04, 7.25326131e-05, -1.69481316e-05, ...,
-2.94693184e-06, 2.59483672e-06, 3.52095128e-07]]),
'uin': array([[ -9.01855411e-03, 0.00000000e+00, 0.00000000e+00, ...,
0.00000000e+00, -7.99360578e-14, 0.00000000e+00],
[ -9.01855411e-03, 0.00000000e+00, 0.00000000e+00, ...,
0.00000000e+00, -6.21724894e-14, 0.00000000e+00],
[ -9.01855411e-03, 0.00000000e+00, 0.00000000e+00, ...,
0.00000000e+00, 1.41805257e-05, 0.00000000e+00],
...,
[ -2.50927606e-02, 0.00000000e+00, 0.00000000e+00, ...,
0.00000000e+00, -8.40115265e-01, 0.00000000e+00],
[ -2.50927606e-02, 0.00000000e+00, 0.00000000e+00, ...,
0.00000000e+00, -8.40071885e-01, 0.00000000e+00],
[ -2.50891131e-02, 0.00000000e+00, 0.00000000e+00, ...,
0.00000000e+00, -8.40028529e-01, 0.00000000e+00]]),
'time': array([[ 0.00000000e+00],
[ 1.00000000e-02],
[ 2.00000000e-02],
...,
[ 1.99980000e+02],
[ 1.99990000e+02],
[ 2.00000000e+02]])
输出、输入和时间数组的形状分别为:
((184112, 63), (184112, 21), (184112, 1))
到目前为止,我对输入数据做了什么?
-整理-删除一些只保留零的列
-应用一些统计:平均值、最小值、最大值、百分位数和相关矩阵
-可视化:每个数字属性的直方图,使用seaborn的成对图
-聚类:K-均值和肘部法;在寻找最佳聚类数后,发现有3个聚类
问题是,我不知道如何验证我的怀疑,即有3个集群,不知道如何利用输出数据(其中包含3倍以上的特性)以及如何处理时间戳。
有人能告诉我该如何进行分析吗?
(我确实需要你的理解,因为我在数据分析方面完全是初学者,ML和AI更是如此。)你知道吗
目前没有回答
相关问题 更多 >
编程相关推荐