擅长:python、mysql、java
<p>选择编码的主要标准应该是结果数据的维数。一个热编码比标签编码好,这并不总是正确的,但是在许多情况下(在值集很小的情况下)它确实如此。你知道吗</p>
<p>对于<code>Sex</code>,我肯定会选择一种热编码。训练数据将把这个列转换成两个(<code>m</code>和<code>f</code>),这不会成为分类器的负担。如前所述,一个热编码通常对一小部分可能的值表现得更好。你知道吗</p>
<p>对于<code>Income</code>,建议使用标签编码,因为可能值的范围很大。我要说的更多-可能不需要编码-它不是一个分类数据。你知道吗</p>
<p>如果我要拍一张照片,对于<code>Vehicles Owned</code>,我会使用标签编码来避免维度地狱。你知道吗</p>
<p>但这些都是一个好的开始,没有严格的规则来使用这些编码类型和简单的检查将是最好的解决方案。你知道吗</p>