大Pandas,地质Pandas。空间连接操作

2024-06-16 11:00:40 发布

您现在位置:Python中文网/ 问答频道 /正文

我试着在每个点上关联一个相对于它所在区域的数字。如果df包含大约2000000,一切都可以正常工作:只需几秒钟。尽管如此,当我尝试使用我的整个数据集时,我无法达到相同的目标,因为它似乎需要花费数小时。似乎没有发生错误

df=gpd.sjoin(df, zones, how='left', op='within')
df.drop(columns=['index_right'], inplace=True)
df['zoneId']=df['zoneId'].fillna(99).astype(int)

我想知道gpd.sjoin操作成本是否通常与数据库大小成正比,以及我可能面临的其他类型的混乱。将df拆分为许多更小的df和小于concat的df有意义吗?我的意思是,有一个类似chunk选项(在读取文件时)的应用,以便在导入文件时分割df,而不是


Tags: 文件数据目标df错误数字花费小时