我有一个由一组邮政编码编制索引的数据集合。我想根据与另一组地理特征的接近程度,比如说,到附近湖泊的距离来汇总这些数据。在
它很简单,比如说,在一个数据帧中遍历每个湖,并应用haversine函数返回50英里内的所有邮政编码。反之亦然;我可以轻松地遍历所有邮政编码,并为每个邮政编码返回50英里范围内的湖泊列表。在
但我想做得更有效率。如果每个zip只对应一个湖,比如说最近的一个湖,那么简单的方法是创建一个新的"lake"
列,然后应用groupby("lake")
来接收要处理的二进制数据。在
我想要的是在groupby之前自动复制行的技术。假设我有以下数据:
lake
zip
10001 Huron
10002 Huron, Erie
10003 Erie, Superior
{cd3>要返回}下面的调用:
^{pr2}$基本上,有没有什么好方法可以做到这一点,或者您基本上还是坚持使用dirty-loop-through-indexes方法?在
选项1
str.split
加expand=True
,后跟stack
+groupby
。这将返回组。在选项2
^{pr2}$str.get_dummies
,我喜欢的方法。这不会返回分组结果,但是get_dummies
隐式地创建ohe,您可以将其转换为分组。在相关问题 更多 >
编程相关推荐