“辐射状公路可达性指数”是离散数值数据还是有序分类数据?

2024-04-29 08:20:19 发布

您现在位置:Python中文网/ 问答频道 /正文

我目前正在对scikit learn的“load_boston”数据集进行数据探索,其中一个属性名为“RAD”,根据数据集文档,它表示“辐射状公路的可达性指数”

该列仅包含1到24之间的离散整数,并且许多行共享相同的值。我倾向于说它是有序分类的,因为我认为“可访问性指数”意味着这些值不一定代表一个数字,但可能代表一个排名。但话说回来,也许我错过了什么。有什么想法吗


Tags: 数据文档属性分类load代表整数scikit
1条回答
网友
1楼 · 发布于 2024-04-29 08:20:19

你是对的,一个“指数”(例如一个国家的level of freedom,通往放射状公路的可达性)是一个分类变量,更具体地说,是一个有序变量

这个machine learning article描述了标称分类变量(如颜色(红色、绿色或蓝色))和有序分类变量(如位置(第一、第二、第三)之间的关系

Nominal Variable (Categorical). Variable comprises a finite set of discrete values with no relationship between values.

Ordinal Variable. Variable comprises a finite set of discrete values with a ranked ordering between values.

关键是值之间的关系-如果一个RAD值表示公路可达性比另一个更高(例如5分对3分),则为顺序

相关问题 更多 >