如何在数据帧中选择数据列和目标列进行测试\u列\u拆分?

2024-04-26 15:11:37 发布

您现在位置:Python中文网/ 问答频道 /正文

我试图用我从csv读取的数据建立一个test_train_split数据框。我正在读的那本书说我应该把x_train分为作为数据的y_train和作为目标的y_train,但是我如何定义哪个列是目标,哪个列是数据呢?到目前为止,我有以下几点

import pandas as pd
from sklearn.model_selection import train_test_split
Data = pd.read_csv("Data.csv")

我已经读过以下面的方式进行拆分的文章,但是下面使用的是一个已经定义了datatarget的簇:

X_train, X_test, y_train, y_test = train_test_split(businessleisure_data['data'],
                                                    iris_dataset['target'], random_state=0)

Tags: csv数据testimporttarget目标pandasdata
1条回答
网友
1楼 · 发布于 2024-04-26 15:11:37

你可以这样做:

Data = pd.read_csv("Data.csv")    
X = Data.drop(['name of the target column'],axis=1).values
y = Data['name of the target column'].values
X_train,X_test,y_train,y_test = train_test_split(X,y,random_state=0)

在大多数情况下,目标变量是数据集的最后一列,因此您也可以尝试以下操作:

Data = pd.read_csv("Data.csv")
X = Data.iloc[:,:-1]
y = Data.iloc[:,-1]
X_train,X_test,y_train,y_test = train_test_split(X,y,random_state=0)

相关问题 更多 >