我有一个5000000行x3列的数据集。在
基本上,它看起来像:
location os clicked
0 China ios 1
1 USA android 0
2 Japan ios 0
3 China android 1
所以,我去了熊猫.DataFrame为您提供超赞且快速的支持。在
现在我将根据dict替换位于数据帧序列中的值
注意:我用作参考的dict看起来像:
^{pr2}$因为我使用Pandas.DataFrame.Column_Label.drop_duplicates()
。在
最后,我得到了:
location os clicked
0 1 ios 1
1 2 android 0
2 3 ios 0
3 1 android 1
我在446年代完成了完整的映射。在
有没有更快的方法?在
我认为replace()
函数浪费了很多时间进行无意义的搜索。那么我是不是要走右边?在
我现在可以回答我自己的问题了。在
这样做的目的是处理分类数据,这些数据在分类任务等中反复出现。首先,我们希望使用一种热编码方法将分类数据转换为数值向量,这对于sklearn包或statsmodel来说是可以接受的。在
只需读取cvs文件熊猫.DataFrame通过使用:
data = pd.read_csv(dir, encoding='utf-8')
然后:
一切都很好。在
相关问题 更多 >
编程相关推荐