如何避免两个for
循环并优化代码以处理大数据?你知道吗
import pandas as pd
import numpy as np
array = np.array([[1,'aaa','bbb'],[2,'ccc','bbb'],[3,'zzzz','bbb'],[4,'eee','zzzz'],[5,'ccc','bbb'],[6,'zzzz','bbb'],[7,'aaa','bbb']])
df= pd.DataFrame(array)
l=[]
for i in range(len(df)):
for j in range(i+1,len(df)):
if (df.loc[i][1] == df.loc[j][1]) & (df.loc[i][2] == df.loc[j][2]):
l.append((df.loc[i][0],df.loc[j][0]))
您可以按列
[1,2]
分组,然后按如下方式聚合来自列0
的值:按第二列和第三列分组。然后使用组合函数:
chain
和combinations
。你知道吗稍微更改一下数据集。你知道吗
相关问题 更多 >
编程相关推荐