《机器学习实战》第三章中使用python画决策树
机器学习实战3——用python画决策树
《机器学习实战》第三章中使用python画决策树
《机器学习实战》第三章中使用python画决策树
信息 信息论奠基人香农(Shannon)认为“信息是用来消除随机不确定性的东西”,信息量用来量化消除的不确定的多少。事件发生的概率越低,那么该事件发生的信息量就越高 一个发生的事件x的信息量为 h(x) = – log_2{(P
kNN 是 k-NearestNeighbor 的缩写,中文叫做k-临近算法。它的思想是通过一个点最邻接的k个点的分类来预测这个点的分类。 如下图所示,k=3时,预测问号是属于○还是△ 。在距离要预测样本最近的三个点中,有2个是三角,1个时
NMI的英文全称是Normalized Mutual Information,中文叫做标准化互信息,它可以用来衡量两种聚类结果的相似度。 本文介绍适用于重叠聚类的NMI计算步骤,重叠指的是,一个节点可以属于多个类别。 假设一个图中的真实社团
Modularity的定义和公式推导可以参考Modularity的计算方法——社团检测中模块度计算公式详解 | 雅乐网 使用公式 $$Q = \sum_i{(\frac{e_i}{m} – (\frac{k_{C_i}}{2m}
测试文件 graph.txt,内容为:
Modularity,中文称为模块度,是 Community Detection(社区发现/社团检测) 中用来衡量社区划分质量的一种方法。要理解Modularity,我们先来看社团和社团检测的概念。 社团检测 社团检测,就是要在一个图(包含
本系列文章是Coursera上密歇根大学的《Social Network Analysis》课的笔记。这门课现在已经不开了,课程的视频可以在这里下载:课程视频 | MOOC学院 一、介绍 社交网络可以用图(Graph)表示,它包含一系列结点
图像文字识别的任务是从一张给定的图片中识别文字。不同于文档的文字识别,图像文字识别首先要发现图像中哪个地方有文字。然后在进行文字识别。 完成这个任务的流水线如下: 1. 文字侦测(Text Detection)—— 确定图片中的文字在哪里
当训练集的规模很大时,可以帮助我们训练出更好的结果。但是,训练集规模的增大也带来了计算的代价非常大。 可以通过绘制学习曲线来判断大规模的训练集是否有必要。 梯度下降法的两个变种 假设我们的训练集中有100万个记录,在一般的梯度下降中,每次迭