Pandas：更快地将字符串元组列表转换为数据帧？

import pandas as pd coords = pd.Series([ '(29.65271977700047, -82.33086252299967)', '(29.652914019000434, -82.42682220199964)', '(29.65301114200048, -82.36455186899968)', '(29.642610841000476, -82.29853169599966)', ])

2条回答

网友

1楼 · 编辑于 2024-04-29 10:18:41

访问列表的第一个和第二个元素的另一种方法也是通过str：

In [174]: coords = pd.Series([
   .....:    '(29.65271977700047, -82.33086252299967)',
   .....:    '(29.652914019000434, -82.42682220199964)',
   .....:    '(29.65301114200048, -82.36455186899968)',
   .....:    '(29.642610841000476, -82.29853169599966)'])

In [175]: str_coords = coords.str[1:-1].str.split(', ')

In [176]: coords_df = pd.DataFrame({'lat': str_coords.str[0], 'lon': str_coords.str[1]})

In [177]: coords_df.astype(float).head()
Out[177]:
         lat        lon
0  29.652720 -82.330863
1  29.652914 -82.426822
2  29.653011 -82.364552
3  29.642611 -82.298532
4  29.652720 -82.330863

一些计时表明，我的解决方案和@ajcr的解决方案都比apply快得多(pd系列)方法（两者之间的差异可以忽略不计）：

^{pr2}$

网友

2楼 · 编辑于 2024-04-29 10:18:41

另一种方法是使用矢量化字符串方法^{}：

>>> coords.str.extract(r'\((?P<lat>[\-\d\.]+),\s+(?P<lon>[\-\d\.]+)\)')
                  lat                 lon
0   29.65271977700047  -82.33086252299967
1  29.652914019000434  -82.42682220199964
2   29.65301114200048  -82.36455186899968
3  29.642610841000476  -82.29853169599966

您可以将命名的regex捕获组传递给extract-它将创建一个以组名作为列名的数据帧。在

然后可以将此数据帧df转换为float数据类型：

^{pr2}$

相关问题更多 >

编程相关推荐

热门问题

热门文章

Pandas：更快地将字符串元组列表转换为数据帧？

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >