我正在使用Kaggle上的airbnb数据集:
https://www.kaggle.com/c/airbnb-recruiting-new-user-bookings
并希望将语言列的值简化为两组-英语和非英语。你知道吗
例如:
users.language.value_counts()
en 15011
zh 101
fr 99
de 53
es 53
ko 43
ru 21
it 20
ja 19
pt 14
sv 11
no 6
da 5
nl 4
el 2
pl 2
tr 2
cs 1
fi 1
is 1
hu 1
Name: language, dtype: int64
我想要的结果是:
users.language.value_counts()
english 15011
non-english 459
Name: language, dtype: int64
这就是我想要的解决方案:
def language_groupings():
for i in users:
if users.language !='en':
replace(users.language.str, 'non-english')
else:
replace(users.language.str, 'english')
return users
users['language'] = users.apply(lambda row: language_groupings)
但这显然有点问题,因为当我对列运行value\u counts时,它返回一个空序列。你知道吗
试试这个:
这就是你想要的吗?你知道吗
相关问题 更多 >
编程相关推荐