首页 理论教育 大数据相关技术-大学计算机应用

大数据相关技术-大学计算机应用

时间:2023-10-17 理论教育 版权反馈
【摘要】:分布式数据库,事务型数据库技术:NoSQL,代表产品有BigTable、HBase、MongoDB、Dynamo;分析型数据库技术:Hive、Impala。大数据索引和查询技术。实时流式大数据存储与处理技术。涉及的关键技术:大数据查询分析计算模式与技术:HBase、Hive、Cassandra、Impala。

大数据相关技术-大学计算机应用

1.采集与预处理

利用ETL(Extract-Transform-Load)工具将分布的、异构数据源中的数据,如关系数据、平面数据文件等,抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础;或者把实时采集的数据作为流计算系统的输入,进行实时处理、分析。

2.存储和管理

利用分布式文件系统、数据仓库、关系数据库、NoSQL数据库、云数据库等,实现结构化、半结构化和非结构化海量数据的存储和管理。

面临的问题:数据量大、类型复杂(结构化、半结构化、非结构化)。

涉及的关键技术:

(1)分布式文件系统的相关技术:高效元数据管理技术、系统弹性扩展技术、存储层级内的优化、针对应用和负载的存储优化技术、针对存储器件的优化技术。

(2)分布式数据库事务型数据库技术:NoSQL,代表产品有BigTable、HBase、MongoDB、Dynamo;分析型数据库技术:Hive、Impala。

(3)大数据索引和查询技术。

(4)实时流式大数据存储与处理技术。

3.处理与分析(www.xing528.com)

利用分布式并行编程模型和计算框架,结合机器学习和数据挖掘算法,实现对海量数据的处理和分析;对分析结果进行可视化呈现,帮助人们更好地理解数据、分析数据。

面临的问题:数据结构特征、并行计算、数据获取(批处理/流处理)、数据处理类型、实时响应性能、迭代计算、数据关联性

涉及的关键技术:

(1)大数据查询分析计算模式与技术:HBase、Hive、Cassandra、Impala。

(2)批处理计算:Hadoop MapReduce、Spark。

(3)流式计算:Storm、Spark Steaming。

(4)图计算:Giraph、GraphX。

(5)内存计算:Spark、Hana、Dremel。

4.数据安全

构建隐私数据保护体系和数据安全体系,有效保护个人隐私和数据安全。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈