要分析一个数据系统的总体架构,也就是要弄清楚两个问题:一个大数据系统需要包含哪些模块和哪些技术呢?这些不同模块之间怎么协调起来完成一个关于大数据的任务呢?带着这两个问题我们可以学习本章的知识–大数据系统的总体架构。
我们可以用自下而上的方式来思考一个大数据系统总体架构是怎么样的,在有了硬件之后,我们首先要考虑的就是数据怎么放,这就是大数据的存储与管理技术。然后有了数据之后我们就应该对数据进行处理,这就要用到大数据的处理技术。处理完了之后客户端又需要获取到处理完的结果,这就要用到数据的查询技术。在拥有了大量的数据之后,怎么对这些数据进行分析与挖掘,得到有价值的信息、经验性的规律来指导政府或者商业上的决策,这就衍生了大数据分析与挖掘技术。最后,为了方便展示和观察,将大数据处理分析的结果以形象的方式向人们展示,就诞生了大数据可视化技术。
如上图所示是大数据系统的总体架构,自下而上的过程以数据流的角度描述了一个大数据应用的工作机制。一个企业或者一个部门将自己拥有的大量数据用分布式存储的方式存放在大量的节点上,然后以关系型数据库或者非关系型数据来管理这些数据,应对不同的需求使用不同的数据处理工具进行分布式计算。使用类似与SQL的方式简化数据查询和简单处理的过程,降低数据分析人员的使用门槛,数据分析人员对数据进行分析与挖掘,获取有价值的信息用于指导未来的决策。最后将数据分析的结果以图的方式形象的展示出来,方便所有人的查看与理解。这样我们就回答了开篇大数据系统有哪些模块和这些模块之前怎样协调完成一个大数据任务的问题。