根据数据帧最快的是什么？ - 问答 - Python中文网

根据数据帧最快的是什么？

2024-04-19 05:28:22 发布

您现在位置：Python中文网/ 问答频道 /正文

男 | 程序猿一只，喜欢编程写python代码。

我有一个5000000行x3列的数据集。在

基本上，它看起来像：

    location       os  clicked
0      China      ios      1
1        USA  android      0
2      Japan      ios      0
3      China  android      1

所以，我去了熊猫.DataFrame为您提供超赞且快速的支持。在

现在我将根据dict替换位于数据帧序列中的值

注意：我用作参考的dict看起来像：

^{pr2}$

因为我使用Pandas.DataFrame.Column_Label.drop_duplicates()。在

最后，我得到了：

    location     os  clicked
0         1      ios      1
1         2  android      0
2         3      ios      0
3         1  android      1

我在446年代完成了完整的映射。在

有没有更快的方法？在

我认为replace()函数浪费了很多时间进行无意义的搜索。那么我是不是要走右边？在

Tags：数据 dataframe pandas os 序列 location dict android

1条回答

网友

1楼 · 发布于 2024-04-19 05:28:22

我现在可以回答我自己的问题了。在

这样做的目的是处理分类数据，这些数据在分类任务等中反复出现。首先，我们希望使用一种热编码方法将分类数据转换为数值向量，这对于sklearn包或statsmodel来说是可以接受的。在

只需读取cvs文件熊猫.DataFrame通过使用： data = pd.read_csv(dir, encoding='utf-8')

然后：

data_binary = pd.get_dummies(data, prefix=['os','locate'],columns=['os','location'])

一切都很好。在

相关问题更多 >

编程相关推荐

热门问题

热门文章