我是熊猫的初学者,在任何地方都找不到解决这个问题的办法。
假设我有两个变量:variable1,variable2。
它们可以具有以下预定义值:
variable1 = ['1', '4', '9', '15', '20']
variable2 = ['2', '5', '6']
但是,当前数据集只有其中一些值:
df = pd.DataFrame({variable1 : ['1', '9', '20'],
variable2 : ['2', '2', '6']})
交叉变量时:
pd.crosstab(df.variable1, df.variable2)
我得到:
variable2 2 6
variable1
1 1 0
20 0 1
9 1 0
有没有一种方法可以将所有可能的分类值放在列和行中,即使当前数据集没有所有这些值?目标是在使用更新的数据集运行脚本时具有相同大小的表,该数据集可能具有上一个数据集中不存在的值。
可以使用reindex:
使用^{} :
相关问题 更多 >
编程相关推荐