如何规范化[0,1]范围内的数据帧中的数据？

Preg Glucose BP SkinThickness Insulin BMI Pedigree Age Outcome 0 1 148.0 72.000000 35.00000 155.548223 33.600000 0.627 50 1 1 1 85.0 66.000000 29.00000 155.548223 26.600000 0.351 31 0 2 1 183.0 64.000000 29.15342 155.548223 23.300000 0.672 32 1 3 1 89.0 66.000000 23.00000 94.000000 28.100000 0.167 21 0 4 0 137.0 40.000000 35.00000 168.000000 43.100000 2.288 33 1 5 1 116.0 74.000000 29.15342 155.548223 25.600000 0.201 30 0

df.describe() Preg Glucose BP SkinThickness Insulin BMI Pedigree Age count768.000000 768.000000 768.000000 768.000000 768.000000 768.000000 768.000000 768.000000 mean0.855469 121.686763 72.405184 29.153420 155.548223 32.457464 0.471876 33.240885 std 0.351857 30.435949 12.096346 8.790942 85.021108 6.875151 0.331329 11.760232 min 0.000000 44.000000 24.000000 7.000000 14.000000 18.200000 0.078000 21.000000 25% 1.000000 99.750000 64.000000 25.000000 121.500000 27.500000 0.243750 24.000000 50% 1.000000 117.000000 72.202592 29.153420 155.548223 32.400000 0.372500 29.000000 75% 1.000000 140.250000 80.000000 32.000000 155.548223 36.600000 0.626250 41.000000 max 1.000000 199.000000 122.000000 99.000000 846.000000 67.100000 2.420000 81.000000

3条回答

网友

1楼 · 编辑于 2024-06-02 05:29:04

假设您的原始数据帧是df，并且没有无效的浮点值，这应该可以工作

df2 = (df - df.values.min()) / (df.values.max()-df.values.min())

网友

2楼 · 编辑于 2024-06-02 05:29:04

您的标准化公式的目的不是将值置于[0,1]范围内

如果要规范化数据以使其处于这样的范围内，可以使用以下公式：

z = (actual_value - min_value_in_database)/(max_value_in_database - min_value_in_database)

先生，您不必手动操作，只需使用sklearn library，您将在预处理部分找到不同的标准化和规范化方法

网友

3楼 · 编辑于 2024-06-02 05:29:04

这里有几点需要注意

首先，除非输入数据具有非常特定的特征，否则z分数归一化不会产生[0,1]范围内的特征

其次，正如其他人所指出的，数据归一化的两种最常见方法是标准化和最小-最大缩放

设置数据

import pandas as pd

df = pd.read_csv('https://raw.githubusercontent.com/jbrownlee/Datasets/master/pima-indians-diabetes.data.csv')

# For the purposes of this exercise, we'll just use the alphabet as column names
df.columns = list(string.ascii_lowercase)[:len(df.columns)]

$ print(df.head())

   a    b   c   d    e     f      g   h  i
0  1   85  66  29    0  26.6  0.351  31  0
1  8  183  64   0    0  23.3  0.672  32  1
2  1   89  66  23   94  28.1  0.167  21  0
3  0  137  40  35  168  43.1  2.288  33  1
4  5  116  74   0    0  25.6  0.201  30  0

标准化


# print the minimum and maximum values in the entire dataset with a little formatting
$ print(f"Min: {standardised.min().min():4.3f} Max: {standardised.max().max():4.3f}")

Min: -4.055 Max: 845.307

正如您所看到的，这些值远远不在[0,1]中。注：z分数归一化结果数据的范围将根据输入数据的分布而变化

最小最大缩放

min_max = (df - df.values.min()) / (df.values.max() - df.values.min())

# print the minimum and maximum values in the entire dataset with a little formatting
$ print(f"Min: {min_max.min().min():4.3f} Max: {min_max.max().max():4.3f}")

Min: 0.000 Max: 1.000

这里我们确实得到了[0,1]中的值

讨论

在sklearnpreprocessing module中存在这些和许多其他定标器。出于各种原因，我建议阅读sklearn文档并使用它们，而不是手动操作：

因为你必须少打字，所以犯错误的机会就少了
sklearn至少在计算效率上是一样的，而且通常更有效
您应该使用测试数据培训中相同的缩放参数，以避免测试数据信息泄漏。（在大多数实际应用中，这可能不太重要，但这是一种良好的做法。）通过使用sklearn，您不需要存储从缩放训练数据到随后在测试数据上重用的最小/最大/平均/标准差等。相反，您可以只使用scaler.fit_transform(X_train)和scaler.transform(X_test)
如果以后要反转缩放，可以使用scaler.inverse_transform(data)

我相信还有其他原因，但这些是我想到的主要原因

设置数据

标准化

最小最大缩放

讨论

相关问题更多 >

编程相关推荐

热门问题

热门文章