擅长:python、mysql、java
<p><em>“隔离林算法是无监督算法还是有监督算法(如随机林算法)</em></p>
<p>隔离树是一种无监督的算法,因此它不需要标签来识别异常值。它遵循以下步骤:</p>
<ol>
<li>对数据进行随机递归分区,并将其表示为一棵树(Random forest)。这是用户定义子样本参数和树数的训练阶段。作者(Liu and Ting,2008)建议子样本和100棵树的默认值为256。当树的数目增加时,达到收敛。但是,可能需要根据具体情况进行微调。</li>
</ol>
<p><img src="https://i.stack.imgur.com/O59d4.png" alt="image"/></p>
<ol start=“2”>
<li><p>一旦数据的递归分区完成,就到达树的末尾。预计到达异常值所需的距离远小于正常数据所需的距离(见图)。</p></li>
<li><p>对路径距离进行平均和归一化,以计算异常得分。异常得分为1被视为异常值,接近0的值被视为正常值。</p></li>
</ol>
<p>异常值的判断是根据得分进行的。不需要标签列。因此它是一种无监督算法。</p>