大数据系统介绍——总体架构
要分析一个数据系统的总体架构,也就是要弄清楚两个问题:一个大数据系统需要包含哪些模块和哪些技术呢?这些不同模块之间怎么协调起来完成一个关于大数据的任务呢?带着这两个问题我们可以学习本章的知识–大数据系统的总体架构。 我们可以用自
要分析一个数据系统的总体架构,也就是要弄清楚两个问题:一个大数据系统需要包含哪些模块和哪些技术呢?这些不同模块之间怎么协调起来完成一个关于大数据的任务呢?带着这两个问题我们可以学习本章的知识–大数据系统的总体架构。 我们可以用自
NMI的英文全称是Normalized Mutual Information,中文叫做标准化互信息,它可以用来衡量两种聚类结果的相似度。 本文介绍适用于重叠聚类的NMI计算步骤,重叠指的是,一个节点可以属于多个类别。 假设一个图中的真实社团
Modularity的定义和公式推导可以参考Modularity的计算方法——社团检测中模块度计算公式详解 | 雅乐网 使用公式 $$Q = \sum_i{(\frac{e_i}{m} – (\frac{k_{C_i}}{2m}
测试文件 graph.txt,内容为:
Modularity,中文称为模块度,是 Community Detection(社区发现/社团检测) 中用来衡量社区划分质量的一种方法。要理解Modularity,我们先来看社团和社团检测的概念。 社团检测 社团检测,就是要在一个图(包含
本系列文章是Coursera上密歇根大学的《Social Network Analysis》课的笔记。这门课现在已经不开了,课程的视频可以在这里下载:课程视频 | MOOC学院 一、介绍 社交网络可以用图(Graph)表示,它包含一系列结点
图像文字识别的任务是从一张给定的图片中识别文字。不同于文档的文字识别,图像文字识别首先要发现图像中哪个地方有文字。然后在进行文字识别。 完成这个任务的流水线如下: 1. 文字侦测(Text Detection)—— 确定图片中的文字在哪里
当训练集的规模很大时,可以帮助我们训练出更好的结果。但是,训练集规模的增大也带来了计算的代价非常大。 可以通过绘制学习曲线来判断大规模的训练集是否有必要。 梯度下降法的两个变种 假设我们的训练集中有100万个记录,在一般的梯度下降中,每次迭
异常检测(Anomaly Detection) 异常检测是一种非监督学习算法,用来发现不属于已知的一组数据的异常数据点。 给定数据集 \( x_{(1)}, x_{(2)}, …, x_{(m)}\) ,假设这些已有数据是正常(
这一系列笔记是我在学习Coursera上Andrew Ng的机器学习课程时写的,该课程链接如下: https://www.coursera.org/learn/machine-learning 我主要参考课程中的视频和板书资源,另外还参考了