我有一个包含字符串列(名称:14)的数据集,我想将其转换为一个分类特性。据我所知,有两种方法可以做到:
pd.Categorical(data[14])
data[14].astype('category')
虽然这两种方法产生的结果是相同的.dtype
:CategoricalDtype(categories=[' <=50K', ' >50K'], ordered=False)
,但它们并不相同。在
对结果调用.describe()
,它们会产生不同的输出。第一个输出关于单个类别的信息,而第二个(astype(..)
)将产生典型的describe输出,其中包括count、unique、top、freq和name,列出dtype: object
。在
那么,我的问题是,它们为什么/如何不同?在
作为Bakuriu points out,}:
type(pd.Categorical(data[14]))
是Categorical
,而type(data[14].astype('category'))
是{describe()
的行为不同 因为^{无论何时调用}:
^{pr2}$Categorical.describe()
,每个类别都将得到count
和{当你在一个分类序列上调用}, ^{}, ^{} and ^{} 。注意,}在这里也有不同的含义:
Series.describe()
,你可以使用you'll get ^{count
和{相关问题 更多 >
编程相关推荐