我正在使用OULAD dataset它有7个csv文件,这些文件以OULAD网站中的图片所示的方式链接在一起。你知道吗
其中一个名为student\u registration的csv文件有32593行5列,另一个名为student\u Vle的csv文件有10655280行6列。你知道吗
我想添加列date&sum\u click from student\u vle到student\u registration table,这样只添加现有的32593个学生信息。你知道吗
我试过左连接,但结果很奇怪。它有[13009427行x 11列],而不是32593行和8列。就像是联盟。你知道吗
你可以从UCI存储库获取数据集。你知道吗
这是我的密码-
import pandas as pd
import numpy as np
student_reg = pd.read_csv('/home/user/Documents/MOOC dataset cleaned/studentRegistration.csv')
student_vle = pd.read_csv('/home/user/Documents/MOOC dataset cleaned/studentVle.csv')
student_reg_vle = pd.merge(student_reg, student_vle, on='id_student', how='left')
student_reg_vle.set_index('id_student', inplace=True)
print(student_reg_vle)
问题在于重复的数据需要唯一的行,所以解决方案是删除重复:
相关问题 更多 >
编程相关推荐