根据数据帧最快的是什么?

2024-04-19 05:28:22 发布

您现在位置:Python中文网/ 问答频道 /正文

我有一个5000000行x3列的数据集。在

基本上,它看起来像:

    location       os  clicked
0      China      ios      1
1        USA  android      0
2      Japan      ios      0
3      China  android      1

所以,我去了熊猫.DataFrame为您提供超赞且快速的支持。在

现在我将根据dict替换位于数据帧序列中的值

注意:我用作参考的dict看起来像:

^{pr2}$

因为我使用Pandas.DataFrame.Column_Label.drop_duplicates()。在

最后,我得到了:

    location     os  clicked
0         1      ios      1
1         2  android      0
2         3      ios      0
3         1  android      1

我在446年代完成了完整的映射。在

有没有更快的方法?在

我认为replace()函数浪费了很多时间进行无意义的搜索。那么我是不是要走右边?在


Tags: 数据dataframepandasos序列locationdictandroid
1条回答
网友
1楼 · 发布于 2024-04-19 05:28:22

我现在可以回答我自己的问题了。在

这样做的目的是处理分类数据,这些数据在分类任务等中反复出现。首先,我们希望使用一种热编码方法将分类数据转换为数值向量,这对于sklearn包或statsmodel来说是可以接受的。在

只需读取cvs文件熊猫.DataFrame通过使用: data = pd.read_csv(dir, encoding='utf-8')

然后:

data_binary = pd.get_dummies(data, prefix=['os','locate'],columns=['os','location'])

一切都很好。在

相关问题 更多 >