如何查找数据集中的值错误？

import pandas as pd from sklearn.preprocessing import MinMaxScaler # Load training data set from CSV file training_data_df = pd.read_csv("mtth_train.csv") # Load testing data set from CSV file test_data_df = pd.read_csv("mtth_test.csv") # Data needs to be scaled to a small range like 0 to 1 scaler = MinMaxScaler(feature_range= (0, 1)) # Scale both the training inputs and outputs scaled_training = scaler.fit_transform(training_data_df) scaled_testing = scaler.transform(test_data_df) # Print out the adjustment that the scaler applied to the total_earnings column of data print("Note: Parameters were scaled by multiplying by {:.10f} and adding {:.6f}".format(scaler.scale_[8], scaler.min_[8])) # Create new pandas DataFrame objects from the scaled data scaled_training_df = pd.DataFrame(scaled_training, columns=training_data_df.columns.values) scaled_testing_df = pd.DataFrame(scaled_testing, columns=test_data_df.columns.values) # Save scaled data dataframes to new CSV files scaled_training_df.to_csv("mtth_train_scaled", index=False) scaled_testing_df.to_csv("mtth_test_scaled.csv", index=False)

2条回答

网友

1楼 · 编辑于 2024-06-16 09:51:52

import numpy as np
indices_to_keep = ~df.isin([np.nan, np.inf, -np.inf]).any(1)
df[indices_to_keep]

以防您需要找出有多少值是NA或inf

^{pr2}$

您也可以在这里查看缺少数据的文档https://pandas.pydata.org/pandas-docs/stable/missing_data.html

根据文档，我们可以将inf值设置为不可用

pandas.options.mode.use_inf_as_na = True

然后我们就可以寻找NA值。在

import pandas as pd
pd.isna(df)

网友

2楼 · 编辑于 2024-06-16 09:51:52

使用

df.isnull().sum()

了解每列中缺失值的总数

相关问题更多 >

编程相关推荐

热门问题

热门文章