1)总体架构
架构是系统的基本组成方式和遵循的设计原则,以及系统组件与组件、组件与外部环境的相关关系。具体到大数据领域,大数据架构描述了技术和应用视角下的核心组件,以及这些组件之间的分层关系和应用逻辑。在数据架构基础上,结合架构设计的分层原则、模块化原则、设计模式和框架应用,本书提出了大数据架构的参考模型,如图11-11所示。
图3-95 填料箱
(1)分析图3-95。该铸件可以先忽略拔模斜度,视为由一个长方体、一个圆柱体叠加后,中间切除一个异形孔而成。建模时,先建立没有圆角与拔模斜度的模型,最后再添加圆角和拔模斜度。
(2)新建文件。
(3)建立草图。选择右视基准面进行草图1的绘制,如图3-96所示。
(4)拉伸凸台特征。对草图1进行拉伸凸台操作,将“终止条件”设置为“两侧对称”,完成的效果如图3-97所示。
图11-11 大数据架构参考模型
由图11-11可知,大数据架构包含大数据基础资源层、大数据管理与分析层、大数据应用与服务层三部分。大数据基础资源层位于大数据架构的底层,是大数据架构的基础,主要包含大数据相关的基础设施资源、分布式文件系统、非关系型数据库(NoSQL)和数据资源管理等;大数据管理与分析层位于大数据架构的中间层,是大数据架构的核心,主要包含元数据、数据仓库、主数据和大数据分析;大数据应用和服务层是大数据价值的最终体现,包含大数据接口技术、大数据可视化,以及大数据交易和共享、基于开放平台的数据应用和基于大数据的应用工具。
2)大数据基础资源层
大数据基础设施主要包含大数据的计算、存储和网络资源。从大数据的定义分析可知,数据量巨大是大数据的主要特征之一,为支撑海量数据的管理、分析、应用和服务,大数据需要大规模的计算、存储和网络基础设施资源。
目前大数据基础设施硬件是基于普通商用服务器的集群,这种通用化的集群可以结合其他类型的并行计算设施一起工作,如基于多核的并行处理系统、混合式的大数据并行处理构架和硬件平台等。此外,随着云计算技术的发展,大数据基础设施硬件平台也可以与云计算平台结合,运用云计算平台中的虚拟化和弹性资源调度技术,为大数据处理提供可伸缩的计算资源和基础设施。
软件定义的兴起,代表了大数据基础设施未来重要的发展方向。从本质上讲,软件定义是希望把原来一体化的硬件设施拆散,变成若干个部件,为这些基础的部件建立一个虚拟化的软件层。软件层对整个硬件系统进行更为灵活、开放和智能的管理与控制,实现硬件软件化、专业化和定制化。同时对应用提供统一、完备的API,暴露硬件的可操控成分,实现硬件的按需管理。
分布式文件系统(distributed file system)是指文件系统管理的物理存储资源不一定直接连接在本地节点上,而是通过计算机网络与节点相连。分布式文件系统的设计基于客户机/服务器模式。一个典型的网络可能包括多个供多用户访问的服务器。另外,对等特性允许一些系统扮演客户机和服务器的双重角色。
NoSQL数据库摒弃了关系模型的约束、弱化了一致性的要求,从而获得水平扩展能力,支持更大规模的数据。其模式自由(schema free),不再坚持SQL查询语言,因此催生了多种多样的数据库类型,目前广为接受的是类表结构数据库、文档数据库、图数据库和键-值存储。(www.xing528.com)
资源的本质是竞争性的,资源管理的本质是困难的情况下,在一系列约束条件下,寻找可行解的问题。不同类型资源的应用一起部署可以提高总体资源利用率。资源管理目前主要分为两种方式:一是虚拟化;二是基于YARN或Mesos的资源管理层。
3)大数据管理与分析层
大数据管理与分析层主要包含元数据、主数据、数据仓库、大数据分析等。基于元数据管理,大数据管理与分析层关注数据仓库、主数据以及基于主数据的分析,从而发掘大数据的潜在信息,实现大数据价值。
元数据(metadata)是关于数据的组织、数据域及其关系的信息,是关于数据的数据(data about data)。元数据是信息资源描述的重要工具,可以用于信息资源管理的各个方面,包括信息资源的建立、发布、转换、使用、共享等。元数据在信息资源组织方面的作用可以概括为五个方面:描述、定位、搜寻、评估和选择。元数据管理(meta-data management)是关于元数据创建、存储、整合与控制等一整套流程的集合。元数据管理在大数据治理中具有非常重要的地位,元数据管理系统可以把整个业务的工作流、数据流和信息流有效地管理起来,使得系统不依赖特定的开发人员,从而提高系统的可扩展性。
随着大数据时代的到来,传统的关系型数据库已不能满足大数据存储的需求,人们开始将焦点转移到数据仓库技术上。数据仓库是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它是单个数据存储,出于分析性报告和决策支持目的而创建。数据仓库主要有数据采集、数据存储与管理,以及结构化数据、非结构化数据和实时数据管理等功能,与元数据管理有着较深的依赖关系,元数据能提供基于用户的信息,支持系统对数据的管理和维护。
主数据(master data,MD)是指在整个企业范围内各个系统(操作/事务型应用系统以及分析型系统)间要共享的数据,比如与客户、供应商、账户及组织单位相关的数据。在传统的数据管理中,主数据依附于各个单独的业务系统,相对分散。数据的分散会造成数据冗余、数据编码不统一、数据不同步、产品研发的延迟等问题。因此,为保证主数据在整个企业范围内的一致性、完整性和可控性,就需要对其进行管理。
主数据管理是数据管理的一种高级形式,它必须构建于ETL(extract transform load)或EII(enterprise information integration)等技术之上,因此很多主数据管理平台本身就包含了数据抽取、数据加载、数据转换、数据质量管理、数据复制和数据同步等功能。主数据管理可以帮助创建并维护主数据的单一视图,保证单一视图的准确性、一致性以及完整性,从而提供统一的业务实体定义,简化和改进流程并响应业务需求。
大数据只有通过分析才能获取很多智能的、深入的、有价值的信息。越来越多的应用涉及大数据,而这些大数据的属性与特征,包括数量、速度、多样性等都是呈现了不断增长的复杂性,所以大数据的分析方法就显得尤为重要,它是数据资源是否具有价值的决定性因素。数据挖掘是大数据分析的理论核心,大数据预测是应用核心,智能决策是分析结果的主要应用领域。
4)大数据应用与服务层
大数据不仅促进了基础设施和大数据分析技术的发展,更为面向行业和领域的应用和服务带来巨大的机遇。大数据应用与服务层主要包含大数据可视化、大数据交易与共享、大数据应用接口以及基于大数据的应用服务等方面的内容。
传统的数据可视化基本上是后处理模式,超级计算机进行数值模拟后输出的海量数据结果保存在磁盘中,当进行可视化处理时从磁盘读取数据。数据传输和输入输出的瓶颈等问题增加了可视化的难度,降低了数据模拟和可视化的效率。在大数据时代,这一问题更加突出,尤其是包含时序特征的大数据可视化和展示。
在大数据应用过程中,无论是数据使用者还是数据开发者,在使用数据的时候,都是通过数据访问接口来实现。在大数据时代,数据访问一般是通过开放平台接口来实现,通过平台独立、低耦合、自包含、基于可编程数据服务的接口,为大数据的应用提供了通用机制,能够实现平台、语言和通信协议无关的数据交换服务。
在平台可视化和应用接口的支撑下,大数据应用与服务层主要有三种典型的应用模式:数据共享和交易模式、开放平台接口和数据应用工具三种模式。通过数据资源、数据API以及服务接口聚集,实现数据交易及数据定制等共享服务、接口服务和应用开发支撑服务。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。