输入:
df1型
Pg x0 y0 x1 y1 Text
1 521.3 745.92 537.348 754.097 word1
1 538.982 745.92 580.247 754.097 word2
1 527.978 735.253 572.996 747.727 word3
2 268.985 732.36 341.59 746.636 word4
2 344.443 732.36 390.175 746.636 word5
df2型
Pg x0 y0 x1 y1 Text T R C
1 507.6 730.8 593.76 754.8 word1 word2 word3 1 1 2
2 334.56 732.36 401.34 746.636 word5 2 3 1
预期产量:
Pg x0 y0 x1 y1 Text T R C
1 521.3 745.92 537.348 754.097 word1 1 1 2
1 538.982 745.92 580.247 754.097 word2 1 1 2
1 527.978 735.253 572.996 747.727 word3 1 1 2
2 268.985 732.36 341.59 746.636 word4
2 344.443 732.36 390.175 746.636 word5 2 3 1
我需要根据坐标(重叠)和而不是基于文本的方法,找出df1中的所有单词都存在于df2中。在此之后,我需要将[T,R,C]列的值从df2复制到df1。你知道吗
例如:df2的第一行的坐标与df1的word1、word2、word3的坐标重叠。这里的重叠意味着df1中一行的bbox(x0,y0,x1,y1)应该位于df2的特定行的bbox(x0,y0,x1,y1)内。你知道吗
我的方法:
我迭代df2中的每一行,然后比较df1中的每一行坐标以找到任何重叠,然后合并数据帧。你知道吗
for i, r in df2.iterrows():
df1.loc[
(df1.x0 >= r.x0) &
(df1.y0 >= r.y0) &
(df1.x1 <= r.x1) &
(df1.y1 <= r.y1) , 'flag'] = 1
df1.loc[df.flag == 1, ['T', 'R', 'C']] = r.T, r.R, r.C
问题是,整个过程按预期正常工作,但需要大量时间才能运行。运行df1=20000行和df2=3500行大约需要90 seconds
。你知道吗
可以使用
apply
和掩蔽。示例:相关问题 更多 >
编程相关推荐