如何在groupby中组合连接的字符串

import pandas as pd mylist = [[('Smith JR', 'Kim YY'), ('Smith JR', 'Ron AA'), ('Kim YY', 'Ron AA')], [('Kim YY', 'Smith JR')], [('Smith JR', 'Ron AA')]] flat_list = [item for sublist in mylist for item in sublist] df = pd.DataFrame(flat_list, columns=["From", "To"]) df_graph = df.groupby(["From", "To"]).size().reset_index() df_graph.columns = ["From", "To", "Count"] print(df_graph)

2条回答

网友

1楼 · 编辑于 2024-05-13 19:54:22

快而脏

但没那么脏

pd.value_counts([*map(frozenset, zip(df.From, df.To))])

(Smith JR, Ron AA)    2
(Kim YY, Smith JR)    2
(Kim YY, Ron AA)      1
dtype: int64

网友

2楼 · 编辑于 2024-05-13 19:54:22

在添加到数据帧之前，将这两列排序在一起，这样就可以保证一对只按特定顺序出现。然后才应用你的计数方法。使用link中的方法进行排序：

import pandas as pd
import networkx as nx

mylist = [[('Smith JR','Kim YY'),('Smith JR','Ron AA'),('Kim YY','Ron AA')],[('Kim YY','Smith JR')],[('Smith JR','Ron AA')]]

flat_list = [item for sublist in mylist for item in sublist]

df = pd.DataFrame(flat_list, columns=["From", "To"])
#create a new dataframe with the value pairs sorted. You can also sort earlier if you prefer.
df = pd.DataFrame(np.sort(df[["From", "To"]]), columns = ["From", "To"])
#now, just apply the groupby.
df_graph = df.groupby(["From", "To"], axis=0).size().reset_index()
#Output:
     From        To  0
0  Kim YY    Ron AA  1
1  Kim YY  Smith JR  2
2  Ron AA  Smith JR  2

快而脏

相关问题更多 >

编程相关推荐

热门问题

热门文章