擅长:python、mysql、java
<p>我希望您能够规范化给定特性的值,跨越样本。如果你将一个给定样本的数据规范化,那么你已经抛出了很多信息。这将是为了比较特性(这很少有意义),而不是为了比较特性的样本。在</p>
<p>我不知道numpy或sklearn,所以对它有一点怀疑,但是在规范化时,您需要规范化(使用相同的参数)给定特性的所有数据,将该特性的所有值带入(-1。。。+1) ,平均值为零(或类似的值)。你要对每个特性分别做这个,所以它们最终都在这个范围内,每个特性的平均值为零。在</p>
<p>考虑一个例子,如果您对给定样本的所有特性进行了标准化。在</p>
<pre><code> height weight age
person1 180 65 50
person2 140 45 50
</code></pre>
<p>如果我们将person1的值规范化,然后对person2执行相同的操作,那么person2似乎与person1的年龄不同!在</p>
<p>如果我们对给定列的样本进行规范化,那么这些关系仍然有效。他们的年龄会匹配;人1会更高,人2会更轻。但所有特征的所有值都将符合后续分析所需的分布规则。在</p>