大数据的处理流程可以定义为在适合工具的辅助下,对广泛异构的数据源(Web系统、手机App、各种业务系统等)进行抽取和集成,结果按照一定的标准统一存储,利用合适的数据分析技术对存储的数据进行分析,从中提取有益的知识并利用恰当的方式将结果展示给终端用户。
具体步骤如下。
第1步:数据抽取与集成。由于大数据处理的数据来源类型丰富,原始数据种类多样,格式、位置、存储、时效性等迥异,所以要先对数据进行抽取和集成,从中提取出关系和实体,经过关联和聚合等操作,按照统一定义的格式对数据进行存储。
第2步:数据存储。收集好的数据需要根据成本、格式、查询、业务逻辑等需求,存放在合适的位置中,方便进一步分析。数据存储的主要技术有HDFS、HBase。
第3步:数据分析。数据分析是大数据处理流程的核心步骤,通过数据抽取和集成环节,已经从异构的数据源中获得了用于大数据处理的原始数据,用户可以根据自己的需求对这些数据进行分析处理。(www.xing528.com)
第4步:数据解释。大数据处理流程中,用户最关心的是数据处理的结果。正确的数据处理结果只有通过合适的展示方式才能被终端用户正确理解,因此,数据处理结果的展示非常重要,可视化和人机交互是数据解释的主要技术。
在开发调试程序时,经常通过打印语句的方式来呈现结果,这种方式非常灵活、方便,但只有熟悉程序的人才能很好地理解打印结果。
使用可视化技术,可以将处理的结果通过图形的方式直观地呈现给用户,标签云、历史流、空间信息流等是常用的可视化技术,用户可以根据自己的需求灵活地使用这些可视化技术。
人机交互技术可以引导用户对数据进行逐步的分析,使用户参与到数据分析的过程中,使用户可以深刻地理解数据分析结果。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。