大Pandas系列-为什么使用loc？

1条回答

网友

1楼 · 发布于 2024-06-07 13:53:12

显式比隐式好。
df[boolean_mask]选择boolean_mask为真的行，但在您可能不希望它为真的情况下有一个角点大小写：当df具有布尔值列标签时：
```
In [229]: df = pd.DataFrame({True:[1,2,3],False:[3,4,5]}); df
Out[229]: 
   False  True 
0      3      1
1      4      2
2      5      3
```
您可能需要使用df[[True]]来选择True列。相反，它引发了一个ValueError：
```
In [230]: df[[True]]
ValueError: Item wrong length 1 instead of 3.
```
与使用loc相比：
```
In [231]: df.loc[[True]]
Out[231]: 
   False  True 
0      3      1
```
相反，尽管df2的结构与上面的df1几乎相同，但下面的内容并没有提高ValueError：
```
In [258]: df2 = pd.DataFrame({'A':[1,2,3],'B':[3,4,5]}); df2
Out[258]: 
   A  B
0  1  3
1  2  4
2  3  5

In [259]: df2[['B']]
Out[259]: 
   B
0  3
1  4
2  5
```
因此，df[boolean_mask]的行为并不总是与df.loc[boolean_mask]相同。尽管这可能是一个不太可能的用例，但我还是建议始终使用df.loc[boolean_mask]，而不是df[boolean_mask]，因为df.loc语法的含义是明确的。使用df.loc[indexer]可以自动知道df.loc正在选择行。相反，不清楚df[indexer]是否会在不知道indexer和df详细信息的情况下选择行或列（或提升ValueError）。
df.loc[row_indexer, column_index]可以选择行和列。df[indexer]只能根据indexer中的值类型和df中的列值类型（同样，它们是布尔值吗？）选择行或列。
```
In [237]: df2.loc[[True,False,True], 'B']
Out[237]: 
0    3
2    5
Name: B, dtype: int64
```
当切片传递到df.loc时，端点包含在范围中。当一个切片被传递到df[...]时，该切片被解释为半开放间隔：
```
In [239]: df2.loc[1:2]
Out[239]: 
   A  B
1  2  4
2  3  5

In [271]: df2[1:2]
Out[271]: 
   A  B
1  2  4
```

相关问题更多 >

编程相关推荐

热门问题

热门文章

大Pandas系列-为什么使用loc？

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >