从包含节点的数据帧创建邻接列表

df = pd.DataFrame({"id": [0, 1, 2, 3, 4, 5, 6], "start": ["A", "B", "D", "A", "X", "F", "B"], "end": ["B", "C", "F", "G", "X", "X", "E"], "cases": [["c1", "c2", "c44"], ["c2", "c1", "c3"], ["c4"], ["c1", ], ["c1", "c7"], ["c4"], ["c44", "c7"]]})

id start end cases 0 0 A B [c1, c2, c44] 1 1 B C [c2, c1, c3] 2 2 D F [c4] 3 3 A G [c1] 4 4 X X [c1, c7] 5 5 F X [c4] 6 6 B E [c44, c7]

def directly_follows(row1, row2): return close(row1, row2) and case_overlap(row1, row2) def close(row1, row2): return row1["end"] == row2["start"] def case_overlap(row1, row2): return not set(row1["cases"]).isdisjoint(row2["cases"])

id start end cases adjacency_list 0 0 A B [c1, c2, c44] [1, 6] 1 1 B C [c2, c1, c3] [] 2 2 D F [c4] [5] 3 3 A G [c1] [] 4 4 X X [c1, c7] [] 5 5 F X [c4] [] 6 6 B E [c44, c7] []

def connect(data): data["adjacency_list"] = np.empty((len(data), 0)).tolist() for i in range(len(data)): for j in range(len(data)): if i != j: if directly_follows(data.iloc[i], data.iloc[j]): data.iloc[i]["adjacency_list"] = data.iloc[i]["adjacency_list"].append(data.iloc[i]["id"])

3条回答

网友

1楼 · 编辑于 2024-05-21 03:17:28

尝试：

k=0
def test(x):
    global k
    k+=1
    test_df = df[k:]
    return list(test_df[test_df['start'] == x].index)
df['adjancy_matrix'] = df.end.apply(test,1)

输出：

   id start end        cases adjancy_matrix
0   0     A   B  [c1,c2,c44]         [1, 6]
1   1     B   C   [c2,c1,c3]             []
2   2     D   F         [c4]            [5]
3   3     A   G         [c1]             []
4   4     X   X      [c1,c7]             []
5   5     F   X         [c4]             []
6   6     B   E     [c44,c7]             []

网友

2楼 · 编辑于 2024-05-21 03:17:28

一个选择是应用以下函数-它不是完全矢量化的，因为数据帧不特别喜欢嵌入列表之类的可变对象，而且我认为不能以矢量化的方式应用集合操作。不过，它确实减少了所需的比较次数

def f(x):
    check = df[(x["end"] == df["start"])]
    return [
        row["id"]
        for i, row in check.iterrows()
        if not set(row["cases"]).isdisjoint(x["cases"])
    ]


df["adjacency_list"] = df.apply(f, axis=1)

或者，作为一个大lambda函数：

df["adjacency_list"] = df.apply(
    lambda x: [
        row["id"]
        for i, row in df[(x["end"] == df["start"])].iterrows()
        if not set(row["cases"]).isdisjoint(x["cases"])
    ],
    axis=1,
)

输出

   id start end          cases adjacency_list
0   0     A   B  [c1, c2, c44]         [1, 6]
1   1     B   C   [c2, c1, c3]             []
2   2     D   F           [c4]            [5]
3   3     A   G           [c1]             []
4   4     X   X       [c1, c7]            [4]
5   5     F   X           [c4]             []
6   6     B   E      [c44, c7]             []

网友

3楼 · 编辑于 2024-05-21 03:17:28

自连接选项：

df['adjacency_list'] = df.apply(lambda s: df[(df['start'] == s.end) &
                                             (df['id'] != s.id)].index.tolist(), axis=1)
print(df)

输出：

   id start end          cases adjacency_list
0   0     A   B  [c1, c2, c44]         [1, 6]
1   1     B   C   [c2, c1, c3]             []
2   2     D   F           [c4]            [5]
3   3     A   G           [c1]             []
4   4     X   X       [c1, c7]             []
5   5     F   X           [c4]            [4]
6   6     B   E      [c44, c7]             []

输出

相关问题更多 >

编程相关推荐

热门问题

热门文章