使用python和pandas使用2个现有列的函数填充新列

File "pandas\_libs\index.pyx", line 88, in pandas._libs.index.IndexEngine.get_value File "pandas\_libs\index.pyx", line 128, in pandas._libs.index.IndexEngine.get_loc File "pandas\_libs\index_class_helper.pxi", line 91, in pandas._libs.index.Int64Engine._check_type KeyError: ('customer_address', 'occurred at index datetime')

import pandas as pd orders = pd.read_csv('ordersModified.csv', delimiter=';', encoding="ISO-8859-1") distance_chunks = pd.read_csv('PostcodeDistances.csv', chunksize=100000) def calculateDistance(src, dest): result = pd.concat([chunk[(chunk['src'] == src) & (chunk['dest'] == dest)] for chunk in distance_chunks]) return result orders['distance_meters'] = orders.apply(lambda row: calculateDistance(row['customer_address'], row['restaurant_address']).meters) distance = calculateDistance("9727KE", "9742PA") print(distance.meters) print(distance.seconds)

datetime;restaurant;customer_address;amount;restaurant_address 2018-01-01 09:01:48;Name;9728AC;59.93;9717BB 2018-01-01 09:02:13;Name;9712AN;110.73;9727KE 2018-01-01 09:02:52;Name;9732MC;22.30;9726BD 2018-01-01 09:03:21;Name;9743KX;63.98;9718CS 2018-01-01 09:03:59;Name;9721BJ;37.93;9726BD 2018-01-01 09:04:38;Name;9713JL;37.87;9728VJ 2018-01-01 09:05:03;Name;9728VD;70.07;9718CB 2018-01-01 09:05:45;Name;9721VW;75.32;9718CP

1条回答

网友

1楼 · 发布于 2024-04-27 03:49:10

我认为最简单和最快的方法是merge（读：join）在depreture邮政编码和arrival邮政编码上的两个数据帧。这样，您可以一次性获得meters+seconds数据帧中的所有order信息。你知道吗

提供的试验数据代码：

orders.merge(distance_chunks, 
             left_on=['customer_address', 'restaurant_address'],
             right_on=['src', 'dest']).drop(['src', 'dest'], axis=1)

输出

             datetime restaurant customer_address  amount restaurant_address  meters  seconds
0 2018-01-01 09:01:48       Name           9728AC   59.93             9717BB    22.5      5.5

对于你的chunks，它看起来是这样的（我自己无法测试）：

dfs = []
for chunk in distance_chunk:
    dfs.append(
    orders.merge(chunk, 
             left_on=['customer_address', 'restaurant_address'],
             right_on=['src', 'dest']).drop(['src', 'dest'], axis=1)
    )

final_df = pd.concat(dfs, ignore_index=True)

print(final_df.head())

相关问题更多 >

编程相关推荐

热门问题

热门文章