2024-05-15 02:49:31 发布
网友
我目前正在对scikit learn的“load_boston”数据集进行数据探索,其中一个属性名为“RAD”,根据数据集文档,它表示“辐射状公路的可达性指数”
该列仅包含1到24之间的离散整数,并且许多行共享相同的值。我倾向于说它是有序分类的,因为我认为“可访问性指数”意味着这些值不一定代表一个数字,但可能代表一个排名。但话说回来,也许我错过了什么。有什么想法吗
你是对的,一个“指数”(例如一个国家的level of freedom,通往放射状公路的可达性)是一个分类变量,更具体地说,是一个有序变量
这个machine learning article描述了标称分类变量(如颜色(红色、绿色或蓝色))和有序分类变量(如位置(第一、第二、第三)之间的关系
Nominal Variable (Categorical). Variable comprises a finite set of discrete values with no relationship between values.
Ordinal Variable. Variable comprises a finite set of discrete values with a ranked ordering between values.
关键是值之间的关系-如果一个RAD值表示公路可达性比另一个更高(例如5分对3分),则为顺序
你是对的,一个“指数”(例如一个国家的level of freedom,通往放射状公路的可达性)是一个分类变量,更具体地说,是一个有序变量
这个machine learning article描述了标称分类变量(如颜色(红色、绿色或蓝色))和有序分类变量(如位置(第一、第二、第三)之间的关系
关键是值之间的关系-如果一个RAD值表示公路可达性比另一个更高(例如5分对3分),则为顺序
相关问题 更多 >
编程相关推荐