decision_tree.md

决策树

自信息量:

​ 设信源$ X $ 发出$ a_i $的概率为 $ P(a_i) $ ,在收到符号 $a_i$ 的概率之前,收信者对$a_i$的不确定性定义为$a_i$的自信息量 $I(a_i)=-logP(a_i)$ 。

​ 这个定义表明,对于小概率事件信息量大。即对于小概率发生的事件总让我们影响深刻。

信息熵:

​ 自信息量只能反映符号的不确定性。信息熵用来度量整个信源整个的不确定性,定义为:
$$
\begin{align}
H(X) &= P(a_1)I(a_1) + P(a_2)I(a_2) + \cdots + P(a_r)I(a_r) \
&= - \sum_{i=1}^{r} P(a_i) \log P(a_i)
\end{align}
$$

  • $r$ 为信源$X$发出的所有可能得符号类型。
  • 信息熵反应了信源每发出一个符号所提供的平均信息量或无序度的一种度量

条件熵:

​ 条件熵 $H(Y|X)$ 表示在已知随机变量 $X$ 的条件下,随机变量 $Y$ 的不确定性。

$$
H(X|Y)=-\sum_{i=1}^{r}\sum_{j=1}^{s}P(a_ib_j)logP(a_i|b_j)
$$

条件熵是 $ Y $ 在 $ X $ 取特定值 $ x $ 时的熵的数学期望(即加权平均)。

展开后的计算公式(做题常用):

$H(Y|X) = - \sum_{x \in X} \sum_{y \in Y} P(x,y) \log P(y|x)$

  • $P(x)$:特征 $X$ 取某个值(如“晴天”)的概率。
  • $H(Y|X=x)$:在 $X=x$(如“晴天”)这个条件下,目标 $Y$(如“是否去打球”)的熵。

平均互信息量:

​ 通常用平均互信息量表示信号$Y$所能提供的关于$X$的信息量大小,用$I(X,Y)$表示,即

$$ I(X,Y)=H(X)-H(X|Y) $$

信息增益是平均互信息量在决策树中的特殊称呼。

决策树设计