如何按职务过滤数据集?

2024-04-25 19:56:15 发布

您现在位置:Python中文网/ 问答频道 /正文

我试图提取公司,工作描述,评论,和位置的职位是“数据科学家”和“高级数据科学家”分别。我开始尝试为数据科学家获取一个输出,但没能。这个数据集有两个工作的副本,我试图精确地描述所有提到“数据科学家”或“高级数据科学家”的实例。你知道吗

dataset['position']=dataset.position.str.lower()
dataset
        position            company     description      reviews     location
0   data scientist lead     ALS TDI   This position is...  30.0    Atlanta
1   NaN                      xyz        qualified candid.. 4000.0   Texas
2   data scientist           xcv       python desireable..  232.0    toronto
3   data scientist           intel     CS Degree needed..  322145.0   Newyork
4   senior data scientist   amazon     python, excel....   23222.0     montreal
.
.
5000  data scientist/machine  yahoo   sql needed plus...  Nan            Atlanta

我使用下面的方法创建一个数据框,它显式地包含位置的记录,只显示“数据科学家”,而不是索引0和5000中发现的变化。你知道吗

filtered = dataset[dataset['position'].str.contains('data scientist', na=False)]

但是它不起作用,因为它提供了字符串中包含“数据科学家”的所有记录,包括“高级数据科学家”和“数据科学家/机器”


Tags: 数据实例data记录副本评论职位position
1条回答
网友
1楼 · 发布于 2024-04-25 19:56:15

^{}用于查找包含给定字符串的值。你知道吗

^{},或等效的相等运算符==,用于查找等于给定字符串的值。你知道吗

^{}提供了一种通过字符串查询数据帧的方法。你知道吗

因此,您可以使用以下选项之一:

filtered = dataset[dataset['position'].eq('data scientist')]
filtered = dataset[dataset['position'] == 'data scientist']
filtered = dataset.query('position == "data scientist"')

相关问题 更多 >