Python未知数据分析

2024-04-18 04:51:40 发布

您现在位置:Python中文网/ 问答频道 /正文


我必须分析完全未知的数值数据(我不知道它涉及什么)。
以下是来自培训数据的一些示例:

   'yout': array([[  0.00000000e+00,  -7.87464718e-08,  -7.31121013e-08, ...,
     -4.20583628e-07,  -3.62647412e-07,  -2.17680232e-07],
   [ -1.13230235e-13,  -9.38223846e-05,   8.30087034e-05, ...,
     -1.66600921e-07,  -2.18490921e-07,   3.85091720e-07],
   [  3.32348250e-06,  -1.93950410e-04,   1.54892852e-04, ...,
     -7.36868568e-08,  -1.41946370e-07,   2.15633282e-07],
   ..., 
   [  9.72858182e-04,   7.22416022e-05,  -1.68044656e-05, ...,
     -2.90709866e-06,   2.59359588e-06,   3.13502801e-07],
   [  9.71197632e-04,   7.19938095e-05,  -1.67844712e-05, ...,
     -2.91106565e-06,   2.58013028e-06,   3.30935374e-07],
   [  9.80158036e-04,   7.25326131e-05,  -1.69481316e-05, ...,
     -2.94693184e-06,   2.59483672e-06,   3.52095128e-07]]), 
   'uin': array([[ -9.01855411e-03,   0.00000000e+00,   0.00000000e+00, ...,
      0.00000000e+00,  -7.99360578e-14,   0.00000000e+00],
   [ -9.01855411e-03,   0.00000000e+00,   0.00000000e+00, ...,
      0.00000000e+00,  -6.21724894e-14,   0.00000000e+00],
   [ -9.01855411e-03,   0.00000000e+00,   0.00000000e+00, ...,
      0.00000000e+00,   1.41805257e-05,   0.00000000e+00],
   ..., 
   [ -2.50927606e-02,   0.00000000e+00,   0.00000000e+00, ...,
      0.00000000e+00,  -8.40115265e-01,   0.00000000e+00],
   [ -2.50927606e-02,   0.00000000e+00,   0.00000000e+00, ...,
      0.00000000e+00,  -8.40071885e-01,   0.00000000e+00],
   [ -2.50891131e-02,   0.00000000e+00,   0.00000000e+00, ...,
      0.00000000e+00,  -8.40028529e-01,   0.00000000e+00]]),        
   'time': array([[  0.00000000e+00],
   [  1.00000000e-02],
   [  2.00000000e-02],
   ..., 
   [  1.99980000e+02],
   [  1.99990000e+02],
   [  2.00000000e+02]])

输出、输入和时间数组的形状分别为:

   ((184112, 63), (184112, 21), (184112, 1))

到目前为止,我对输入数据做了什么?
-整理-删除一些只保留零的列
-应用一些统计:平均值、最小值、最大值、百分位数和相关矩阵
-可视化:每个数字属性的直方图,使用seaborn的成对图
-聚类:K-均值和肘部法;在寻找最佳聚类数后,发现有3个聚类

问题是,我不知道如何验证我的怀疑,即有3个集群,不知道如何利用输出数据(其中包含3倍以上的特性)以及如何处理时间戳。

有人能告诉我该如何进行分析吗?

(我确实需要你的理解,因为我在数据分析方面完全是初学者,ML和AI更是如此。)你知道吗


Tags: 数据示例time可视化时间数字聚类数组