雅乐网

计算机技术、学习成长

数学 » 机器学习 » 机器学习实战2——决策树

机器学习实战2——决策树

信息

信息论奠基人香农(Shannon)认为“信息是用来消除随机不确定性的东西”,信息量用来量化消除的不确定的多少。事件发生的概率越低,那么该事件发生的信息量就越高

一个发生的事件x的信息量为

h(x) = – log_2{(P(x))}

概率越小,信息量就越大。

信息熵是所有可能发生事件的信息量的期望值

$$H(X) = – \sum_{x \in X}{p(x)  log_2(p(x))}$$

python代码中,data的最后一列是分类的情况,calcShannonEntropy函数用来计算信息熵。

splitData用于选取第axis维度等于value的向量,同时在向量中去掉axis这一维度

chooseBestFeatureToSplit函数中,分别对每个特征计算选择后的信息熵,选择最好的特征。

createTree

如果文章对你有帮助,欢迎点赞或打赏(金额不限)。你的打赏将全部用于支付网站服务器费用和提高网站文章质量,谢谢支持。

版权声明:

本文由 原创,商业转载请联系作者获得授权。
非商业转载请注明作者 雅乐网 ,并附带本文链接:
http://www.yalewoo.com/machine_learning_practice_2_decision_tree.html

上一篇:

下一篇:

我要评论

验证码*: 1 + 7 =