如何在pandas中优化递归函数调用和内部循环？

df = pd.DataFrame( { 'parent_name': ["Car","Tyre","Tyre","Rubber","Nylon","Nylon","Trees","Trees"], 'child_name': ["Tyre","Rubber","Nylon","Trees","Chemicals","Man-made","Leaves","Stems"] } )

1条回答

网友

1楼 · 发布于 2024-05-23 21:48:21

这里最自然的是使用树型数据结构，它将具有线性查询时间。虽然我很惊讶你的方法这么慢，因为3000个数据点并不庞大。在

import pandas as pd
from treelib import Tree

df = pd.DataFrame(
    {
        "parent_name":
            ["Car", "Tyre", "Tyre", "Rubber", "Nylon", "Nylon", "Trees", "Trees"],
        "child_name": ["Tyre", "Rubber", "Nylon", "Trees", "Chemicals", "Man-made", "Leaves", "Stems"]
    }
)

tree = Tree()
tree.create_node(df["parent_name"][0], df["parent_name"][0])  # root
for i, row in df.iterrows():
    tree.create_node(row["child_name"], row["child_name"], parent=row["parent_name"])
tree.show()

def find_parents(child_name):
    child = tree[child_name]
    parent_names = []
    while child.bpointer is not None:
        parent = tree[child.bpointer]
        parent_names.append(parent.identifier)
        child = parent

    return parent_names


print(find_parents("Trees"))
df["list_of_parents"] = df["child_name"].apply(find_parents)

注意：如果修改数据帧，则必须在再次调用“find_parents”函数之前重新创建树。如果您定期修改数据帧，您可以选择在find_parents函数中重新创建树。在

编辑：你好，阿克沙伊坎南，很抱歉迟来回复。因为有些节点可能有多个父节点，所以在这里使用的结构不是树而是有向无环图（DAG）。以下应该可以工作（我添加了一行（“Nylon”，“Leaves”）来测试多父实例）

^{pr2}$

定义一个使用所有这些来查找所有父节点的函数

我将接收到的输出作为单独的列存储在数据帧上

在此之后，我只需在dataframe中搜索用户输入，并将相应的父列列表显示为输出

相关问题更多 >

编程相关推荐

热门问题

热门文章