首页 理论教育 分布式环境下的大规模遥感图像智能检索方法

分布式环境下的大规模遥感图像智能检索方法

时间:2023-06-26 理论教育 版权反馈
【摘要】:目前,各大公司和科研机构相继开发了各种分布式系统,其中最受瞩目、应用最广的开源分布式系统框架是由Apache开发的分布式系统基础架构Hadoop,能够在分布式集群环境下使用简单编程模型计算机,实现大数据的分布式存储和管理。总之,目前分布式环境下的遥感图像检索研究仍处于起步阶段,无论是模型网络结构的划分还是训练数据的划分,都需要依赖专家知识人工设计,划分的粒度还远不够精细。

分布式环境下的大规模遥感图像智能检索方法

在大数据浪潮推动下,有标签训练数据的规模得到了飞速增长。庞大的训练数据为训练大模型提供了基础,但同时需要耗费大量的计算资源和训练时间。近年来涌现的大规模机器学习模型,动辄拥有几百万甚至上百亿个参数,具有超强的表达能力,可以帮助人们解决高难度学习问题;但同时对计算能力和存储容量提出了新的挑战。在计算能力方面,高计算复杂度会导致单机训练可能会消耗无法接受的时长,需要使用并行度更高的处理器或计算机集群来完成训练任务;在存储容量方面,需要采用分布式存储才能满足存储需求。分布式机器学习已经成为人工智能和大数据时代解决最有挑战性问题的主流方案,几乎涵盖了计算机科学的各个领域

目前,各大公司和科研机构相继开发了各种分布式系统,其中最受瞩目、应用最广的开源分布式系统框架是由Apache开发的分布式系统基础架构Hadoop,能够在分布式集群环境下使用简单编程模型计算机,实现大数据的分布式存储和管理。分布式计算框架也层出不穷,其中针对固定数据集的批处理框架MapReduce和在MapReduce基础上优化的流处理框架Spark,以其高扩展性、可靠性和高容错性,得到普遍关注和应用。云存储和云计算技术为改善遥感大数据的“数据孤岛”(即数据独立、分散管理)现状、实现遥感大数据的有效存储和高效管理提供了切实可行的平台和方案,也为在此基础上的遥感图像智能服务提供了保障。

近年来,深度学习在人工智能的很多领域都取得了重大突破。然而,面对越来越复杂的任务,为了充分利用获取的海量数据,人们构建的神经网络规模越来越大、结构越来越复杂。除了模型训练,深度学习涉及的其它海量数据处理任务,如数据清洗、数据转换、数据增强、特征提取等,对计算资源和训练时间的要求都达到了其它机器学习算法无法比拟的程度,迫切需要通过分布式大数据集群来解决。融合了分布式技术和深度学习的分布式深度学习,通过利用集群的分布式资源,提高深度神经网络模型训练效率,使网络模型的应用范围能够突破不断增长的数据量和模型规模的限制。

需要注意的是,分布式深度学习并不是分布式技术和深度学习技术的简单结合。构建分布式深度学习框架需要考虑如何划分训练数据、分配训练任务、调配计算资源、整合分布式训练结果,以期在训练精度和效率之间达到较好的平衡。分布式深度学习的并行通常分为模型并行(model parallelism)和数据并行(data parallelism)两种,分别通过对模型结构和训练数据进行划分实现。比较而言,模型并行实现难度较高,需要考虑模型的结构特点、子模型之间的依赖关系和通信强度,较多适用于网络模型过大、单机内存无法加载的情况;而数据并行方法易部署,容错率和集群利用效率更高。在实际应用中,模型并行和数据并行并非互斥,例如可以构建一个多GPU系统的集群,对单个节点使用模型并行(将模型拆分到各个GPU中),而在节点间进行数据并行。目前已提出的分布式深度学习框架包括Caffe-on-Spark、deeplearning4j、SparkNet和BigDL等。(www.xing528.com)

分布式深度学习在计算机视觉任务中的应用包括图像检索、图像分类、人脸识别、行为识别等。在遥感领域的研究包括:Ahmad等(2016)研究了在Hadoop平台上利用机器学习方法从ENVISAT卫星影像上提取连续特征(如河流、道路等)的方法;M.H.Nguyen等(2019)将基于无监督深度学习的高分辨率卫星影像分析扩展到分布式平台,他们的数据源为从Digital Globe下载的圣地亚哥城市影像,覆盖了社会经济状况不同的城区、郊区和开放空间区域,影像的覆盖面积为1 530km2,总数据量为37.64GB,被切分为200×200像素的334144个数据块。在他们的研究中,基于卷积神经网络的特征提取采用基于多GPU的Keras完成,而聚类分析则分别部署在两个不同的分布式平台Spark和Dark上以进行对比分析,实验结果表明,Spark的运行效率更高,但是需要更多的内存。D.Lunga等(2020)提出一种顾及遥感图像语义和光谱特征的数据划分策略,以及一个在Spark平台下实现高性能遥感图像分析的工作流,并在大范围遥感图像(787300km2)上对其有效性进行了验证。

总之,目前分布式环境下的遥感图像检索研究仍处于起步阶段,无论是模型网络结构的划分还是训练数据的划分,都需要依赖专家知识人工设计,划分的粒度还远不够精细。如何基于不断发展和进步的新技术和硬件,将海量、多源、异构的遥感图像的多模态多标签特征学习、度量学习和深度哈希,依据具体检索任务,实现网络结构、数据和算法的自动部署和自适应调整,从而满足遥感大数据检索的实际应用需求,仍有很多难题有待解决。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈