从一个数据帧中找到另一个数据帧中的元素并返回其索引的快速方法

def getLegitLocationIndex(lat, long): idx = legit_df.index[(legit_df['pickup_latitude'] == lat) & (legit_df['pickup_longitude'] == long)].tolist() if (not idx): return -1 return idx[0] df['legit'] = df.apply(lambda row: getLegitLocationIndex(row['pickup_latitude'], row['pickup_longitude']), axis=1)

import pandas as pd import numpy as np data1 = { 'pickup_latitude' : [41.366138, 40.190564, 40.769413], 'pickup_longitude' : [-73.137393, -74.689831, -73.863300] } legit_df = pd.DataFrame(data1) display(legit_df) #################################################################################### observations = 10000 lat_numbers = [41.366138, 40.190564, 40.769413, 10, 20, 30, 50, 60, 80, 90, 100] lon_numbers = [-73.137393, -74.689831, -73.863300, 11, 21, 31, 51, 61, 81, 91, 101] # Generate 10000 random integers between 0 and 10 random_idx = np.random.randint(low=0, high=len(lat_numbers)-1, size=observations) lat_data = [] lon_data = [] # Create a Dataframe to store 10000 pairs of geographical coordinates for i in range(observations): lat_data.append(lat_numbers[random_idx[i]]) lon_data.append(lon_numbers[random_idx[i]]) df = pd.DataFrame({ 'pickup_latitude' : lat_data, 'pickup_longitude': lon_data }) display(df.head()) #################################################################################### def getLegitLocationIndex(lat, long): idx = legit_df.index[(legit_df['pickup_latitude'] == lat) & (legit_df['pickup_longitude'] == long)].tolist() if (not idx): return -1 return idx[0] df['legit'] = df.apply(lambda row: getLegitLocationIndex(row['pickup_latitude'], row['pickup_longitude']), axis=1) display(df.head())

2条回答

网友
1楼 · 编辑于 2024-06-08 22:41:31

您可以在公共键上使用DataFrame.merge和how='left'。首先重置legit_df的索引。你知道吗
然后fillna与-1：
df.merge(legit_df.reset_index(), on=['pickup_latitude', 'pickup_longitude'], how='left').fillna(-1)
测试性能：
%%timeit df['legit'] = df.apply(lambda row: getLegitLocationIndex(row['pickup_latitude'], row['pickup_longitude']), axis=1)
每个回路5.81 s±179 ms（平均±标准偏差7次，每个回路1次）
%%timeit (df.merge(legit_df.reset_index(),on=['pickup_latitude', 'pickup_longitude'], how='left').fillna(-1))
每个回路6.27 ms±254µs（7次运行的平均值±标准偏差，每个100个回路）

网友
2楼 · 编辑于 2024-06-08 22:41:31

我认为使用合并而不是当前的逻辑可以大大加快速度：
full_df = df.merge(legit_df.reset_index(), how="left", on=["pickup_longitude", "pickup_latitude"])
这将重置引用表的索引，使其成为列并在经度上联接
full_df = full_df.rename(index = str, columns={"index":"legit"}) full_df["legit"] = full_df["legit"].fillna(-1).astype(int)
这将重命名为您要查找的列名，并用-1填充join列中的所有缺失
基准：
旧方法： 5.18 s ± 171 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)
新方法： 23.2 ms ± 1.3 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)

测试性能：

相关问题更多 >

编程相关推荐

热门问题

热门文章