首页 理论教育 大数据机器学习系统的技术特征

大数据机器学习系统的技术特征

时间:2023-10-17 理论教育 版权反馈
【摘要】:一个理想的大数据机器学习系统通常需要具备以下几个方面的技术要素和特征。图4-2大数据机器学习系统所涉及的复杂因素应提供多种并行训练模式,支持不同的机器学习模型和算法。图4-3大数据机器学习系统抽象

大数据机器学习系统的技术特征

如图4-2所示,一个大数据机器学习系统会同时涉及机器学习和大数据处理两方面的诸多复杂技术问题,包括机器学习方面的模型、训练、精度问题以及大数据处理方面的分布式存储、并行化计算、网络通信、局部性计算、任务调度、容错等诸多因素。这些因素互相影响,交织在一起,大大增加了系统设计的复杂性。因此,大数据机器学习已经不仅仅是一个算法研究问题,而是需要针对大数据集,考虑从底层的大数据分布存储到中层的大数据并行化计算,再到上层的机器学习算法,设计一种一体化的支撑系统,形成易于为数据分析程序员和机器学习研究者使用的、完整的大数据机器学习系统。

一个理想的大数据机器学习系统通常需要具备以下几个方面的技术要素和特征。

应当从整个学习的生命周期/流水线来考虑,包括训练数据和特征的提取、并行学习算法的设计、训练模型和参数的查询管理、分布式训练计算过程,都应在一个一体化的学习系统平台上完成。

图4-2 大数据机器学习系统所涉及的复杂因素

应提供多种并行训练模式,支持不同的机器学习模型和算法。(www.xing528.com)

需要提供对底层系统的抽象,以实现对底层通用大数据处理引擎的支持,并提供数据科学中常用的编程语言接口(API)。

应该拥有开放和丰富的生态、广泛的应用和快速的进化能力。

在上述技术特征中,一个非常重要的思路是,要通过系统抽象来降低系统设计的复杂性。如图4-3所示,一个设计良好的大数据机器学习系统,应当通过定义特定的机器学习编程计算和系统抽象接口,将上层机器学习和底层分布式系统解耦开来,将机器学习实现在现有的大数据计算平台之上,而不需要考虑底层系统层面的因素,以此实现底层大数据处理平台对上层用户的透明化,让上层用户从诸多底层的分布和并行化大数据编程计算细节中解放出来,以便他们致力于上层的机器学习模型和算法的设计实现。通过编程计算和系统抽象层API,向上提供各种机器学习编程计算接口以及学习模型和训练数据的表示,向下由底层分布式系统负责处理并提供高效的分布和并行化计算实现。

图4-3 大数据机器学习系统抽象

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈