我试着在每个点上关联一个相对于它所在区域的数字。如果df包含大约2000000,一切都可以正常工作:只需几秒钟。尽管如此,当我尝试使用我的整个数据集时,我无法达到相同的目标,因为它似乎需要花费数小时。似乎没有发生错误
df=gpd.sjoin(df, zones, how='left', op='within')
df.drop(columns=['index_right'], inplace=True)
df['zoneId']=df['zoneId'].fillna(99).astype(int)
我想知道gpd.sjoin
操作成本是否通常与数据库大小成正比,以及我可能面临的其他类型的混乱。将df拆分为许多更小的df和小于concat
的df有意义吗?我的意思是,有一个类似chunk选项(在读取文件时)的应用,以便在导入文件时分割df,而不是
目前没有回答
相关问题 更多 >
编程相关推荐