从大量数据中提取唯一的数据

网友

1楼 · 编辑于 2024-04-24 10:48:14

如果您还想知道属于单个URL的ActivityID，下面是一个解决方案：

假设您有以下数据集：

    URL                 IP          ActivityId
0   http://google.com/  127.0.0.1   2
1   http://google.com/  12.3.3.1    1
2   http://yahoo.com/   123.4.5.1   2
3   http://yahoo.com/   123.4.5.1   5

你可以做：

In[1]:groups = df.groupby('ActivityId')['URL']
      for name, group in groups:
          if group.size == 1:
              print (name,group.values[0])

Out[2]:1 http://google.com/ 
       5 http://yahoo.com/

同时使用：

df.groupby('ActivityId')['URL'].filter(lambda x: len(x.unique()) == 1)

收益率：

1    http://google.com/ 
3     http://yahoo.com/ 
Name: URL, dtype: object

网友

2楼 · 编辑于 2024-04-24 10:48:14

另一个带有^{}的解决方案：

df.groupby('ActivityId')['URL'].filter(lambda x: x.nunique() == 1)

用^{}和^{}更快地解决问题：

df[df.groupby('ActivityId')['URL'].transform('nunique') == 1]

网友

3楼 · 编辑于 2024-04-24 10:48:14

In [21]: df.groupby('ActivityId')['URL'].filter(lambda x: len(x.unique()) == 1)
Out[21]:
1    http://google.com/
Name: URL, dtype: object

相关问题更多 >

编程相关推荐

热门问题

热门文章

从大量数据中提取唯一的数据

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >