如何从大型CSV文件中删除重复项?最好用r或python

2024-03-29 01:40:46 发布

您现在位置:Python中文网/ 问答频道 /正文

我有一个大的CSV文件(数据大小20gb)。它包含来自传感器的时间序列数据,并且时间列有多个重复值?我怎样才能去掉那些重复的?你知道吗

由于文件太大,我无法在R中读取它,并且正在寻找不读取文件(或在块中读取)就删除重复项的方法?你知道吗


Tags: 文件csv数据方法时间序列传感器
1条回答
网友
1楼 · 发布于 2024-03-29 01:40:46

您可以尝试从中使用fread读取文件数据表你知道吗

library(data.table)
df<- fread("filename.csv")

##removing duplicates 

df1<- unique(df)

我希望你的系统有足够的内存。弗雷德比我快很多倍读取.csv你知道吗

相关问题 更多 >