9/20/2007
三个有名的决策树算法和它们的叶子
以前写过一个小笔记,《三个有名的决策树算法:CHAID、CART和C4.5》,说些它们的区别,刚找到一些树叶,可以辅助理解。曰:


CHAID (chi-squared automatic interaction detection,卡方自动交互检测)的前身是AID,主要特征是多向分叉,前向修剪,其标准如名所示,就是卡方检测;另外,CHAID只能处理类别型的输入变量,因此连续型的输入变量首先要进行离散处理。
标准的CARTclassification and regression trees)又不一样,它只能进行二部分叉,后向修剪,分割标准用的是基尼系数(Gini Index);
C4.5源自有名的ID3,它只能进行L型分叉,后向修剪,标准乃是基于信息论的“熵”(Entropy)。