基于没有公共列的坐标合并数据帧

2024-05-14 22:13:44 发布

您现在位置:Python中文网/ 问答频道 /正文

输入:

df1型

Pg  x0      y0      x1      y1      Text
1   521.3   745.92  537.348 754.097 word1
1   538.982 745.92  580.247 754.097 word2
1   527.978 735.253 572.996 747.727 word3
2   268.985 732.36  341.59  746.636 word4
2   344.443 732.36  390.175 746.636 word5

df2型

Pg  x0      y0      x1      y1      Text                T   R   C
1   507.6   730.8   593.76  754.8   word1 word2 word3   1   1   2
2   334.56  732.36  401.34  746.636 word5               2   3   1

预期产量:

Pg  x0      y0      x1      y1      Text    T   R   C
1   521.3   745.92  537.348 754.097 word1   1   1   2
1   538.982 745.92  580.247 754.097 word2   1   1   2
1   527.978 735.253 572.996 747.727 word3   1   1   2
2   268.985 732.36  341.59  746.636 word4           
2   344.443 732.36  390.175 746.636 word5   2   3   1

我需要根据坐标(重叠)和而不是基于文本的方法,找出df1中的所有单词都存在于df2中。在此之后,我需要将[T,R,C]列的值从df2复制到df1。你知道吗

例如:df2的第一行的坐标与df1的word1、word2、word3的坐标重叠。这里的重叠意味着df1中一行的bbox(x0,y0,x1,y1)应该位于df2的特定行的bbox(x0,y0,x1,y1)内。你知道吗

我的方法:

我迭代df2中的每一行,然后比较df1中的每一行坐标以找到任何重叠,然后合并数据帧。你知道吗

for i, r in df2.iterrows():
    df1.loc[
                (df1.x0 >= r.x0) &
                (df1.y0 >= r.y0) &
                (df1.x1 <= r.x1) &
                (df1.y1 <= r.y1) , 'flag'] = 1

    df1.loc[df.flag == 1, ['T', 'R', 'C']] = r.T, r.R, r.C

问题是,整个过程按预期正常工作,但需要大量时间才能运行。运行df1=20000行和df2=3500行大约需要90 seconds。你知道吗


Tags: 方法textpgdf1df2x1bboxy1
1条回答
网友
1楼 · 发布于 2024-05-14 22:13:44

可以使用apply和掩蔽。示例:

def compare(row):
    mask = df2[
        (df2['x0'] <= row['x0']) &
        (df2['x1'] >= row['x1']) &
        (df2['y0'] <= row['y0']) &
        (df2['y1'] >= row['y1'])
    ]
    if mask.empty:
        return row
    row['T'] = mask['T'].tolist()[0]
    row['R'] = mask['R'].tolist()[0]
    row['C'] = mask['C'].tolist()[0]

return row

result = df1.apply(compare, axis=1)

相关问题 更多 >

    热门问题