我有一个日期和公司名称的数据集。我只想保留行,使公司名称和日期的组合至少在数据集中出现两次。你知道吗
为了说明这个问题,假设我有以下数据帧:
df1 = pd.DataFrame(np.array([['28/02/2017', 'Apple'], ['28/02/2017', 'Apple'], ['31/03/2017', 'Apple'],['28/02/2017', 'IBM'],['28/02/2017', 'WalMart'],
['28/02/2017', 'WalMart'],['03/07/2017', 'WalMart']]), columns=['date','keyword'])
我想要的结果是:
df2 = pd.DataFrame(np.array([['28/02/2017', 'Apple'], ['28/02/2017', 'Apple'],
['28/02/2017', 'WalMart'],
['28/02/2017', 'WalMart']]), columns=['date', 'keyword'])
我知道如何根据两列中的条件删除行,但我不知道如何根据两个值的组合在数据集中出现的次数删除行。你知道吗
有人能提供一些见解吗?你知道吗
输出
使用^{} 指定检查重复的列,使用} 返回所有重复行:
keep=False
按^{如果需要指定行数,请使用^{} 和^{} 计数:
如果小数据帧或性能不重要,请使用filter:
相关问题 更多 >
编程相关推荐