我有一个.cvs数据集,它有一列有多个值。 我希望我可以将这些值拆分,并将它们更改为带有布尔标记的单个功能列,以便在特定项具有此功能时使用 e、 g.:
| year_built | amenity |
----------------------------------------------------
| 1990 | Courtyard, |
| 2015 | Elevator,Pets - Cats ok, |
| 1998 | Elevator,Pets - Cats ok,Post-War |
转移到
| year_built | amenity | Elevator | Pets - Cats ok | Post-War | Courtyard |
------------------------------------------------------------------------------------------------------
| 1990 | Courtyard, | 0 | 0 | 0 | 1 |
| 2015 | Elevator,Pets - Cats ok, | 1 | 1 | 0 | 0 |
| 1998 | Elevator,Pets - Cats ok,Post-War | 1 | 1 | 1 | 0 |
我检查了预处理包中的scikit学习类'binarizer',它可以实现我想要的,但在此之前,我还需要一些方法来帮助分割这些值并识别它们。你知道吗
有没有什么方法可以使用R或Python来处理这个问题?你知道吗
我用一个假数据集演示了一种方法。你知道吗
使用逗号拆分特征,并恢复唯一特征向量:
我们使用
%in%
操作符检查是否在每个观察的特征集中找到了特征:相关问题 更多 >
编程相关推荐