海洋数据的准确性和时空连续性,对海洋科学研究至关重要。实际操作中,由于仪器自身的误差、卫星故障、大气中云雾等现象影响,使得部分数据不可用或缺失,这就产生数据重构问题,为海洋数据产品生成、挖掘及现象分析带来困难。传统的数据重构方法多采用插值算法,如最优插值、线性插值等,并广泛应用于Argo、海洋遥感等海洋数据重构,然而由于插值过程中导致重要信息丢失,造成数据重构误差较大,为传统数据重构方法带来巨大挑战。
在从低分辨率到高分辨率的构造过程中,与传统插值方法不同,最新的一些方法有赖于大量样本,并在训练样本中学习从低分辨率到高分辨率的转换规律,从而形成模型。而深度学习可以从大量的样本数据中学习到复杂的模型,并能够控制模型效率,在解决海洋数据重构问题方面发挥了重要作用。以海表面温度数据重构为例,高分辨率CNN(SRCNN)是目前较为常见的高分辨率数据重构方法,该方法能够将低分辨率数据采用双三次插值方法调整大小,使其与目标高分辨率数据的像素数或网格数相同,并作为网络的输入。SRCNN具有3层卷积滤波,第1层是特征抽取,通过密集抽取低分辨率数据的图像来计算高级特征表征;第2层是非线性映射,通过每一个矢量特征的非线性变换作为重构的高分辨率数据的特征表征;第3层重构,通过整合高分辨率数据的特征表征输出最终的高分辨率图像(图21.6)。Ducournau等采用非洲南部海区(10.025°W~34.925°E,35.975°S~65.925°S)高分辨率业务化海表面温度和海冰再分析(operational seasurface temperature and sea ice analysis,OSTIA)数据(2007年1月—2016年4月,时间分辨率为天,空间分辨率为0.05°),由于OSTIA是由多种实测数据(微波遥感数据、浮标等)融合得到,因此网络以低分辨率数据微波SST和高分辨率数据OSTIA作为输入,学习两者之间的映射关系,从而建立由低分辨率到高分辨率的模型。合理增加滤波器的个数对于复杂模型的学习效果具有增进作用。SRCNN与双三次插值方法对比证明,双三次插值方法将数据的特征变得更加平滑,而SRCNN则能够增加更多细节,让数据梯度更加明显。
图21.6 深度学习数据重构示意
2)海洋数据分类识别
海洋观测技术特别是遥感技术的发展,一方面为海洋的研究与应用提供了大量数据,另一方面也为数据的智能挖掘带来挑战。如何高效地对海洋数据进行分类识别,成为海洋大数据智能挖掘的热点问题。传统的数据分类识别多采用目视解译、人工分类或复杂的提取算法,然而这些传统方法难以在合理时间范围内完成数据分类识别。目前,许多研究采用深度学习等方法用于遥感影像的分类识别、特征提取。
以海洋中尺度涡的分类识别为例。中尺度涡是能够携带物质和能量进行迁移,引起水体垂直向上混合,空间尺度在几十千米到几百千米的旋转水体。其对海洋动量传输、生物地球化学过程、海气相互作用等具有影响,因此广泛受到海洋学界的关注。传统中尺度涡旋的识别分类研究多采用目视解译法、基于物理几何参数法及混合对比法。然而,算法效率与准确率难以兼得,基于等值线算法虽然在效率和准确率上有了一定的提升,但仍难以满足数据快速挖掘的需求。因此,采用深度学习中的CNN方法较为理想。首先,数据准备阶段,以法国哥白尼海洋环境监测中心提供的海表面高度异常数据(archiving,validation and interpretation of satellite oceangraphic-sea level anomalies,AVISO-SLA)为数据源,使用基于等值线的中尺度涡旋识别方法,识别出1998—2012年共15年间南大西洋海区(65°S~16°S,71°W~31°E)的涡旋数据作为涡旋样本(图21.7),按时间顺序的70%、20%和10%分割为训练数据源、测试数据源和验证数据源。以9像素×9像素的图像按照涡旋样本的位置从对应的AVISO-SLA中密集抽取气旋涡图像、反气旋涡图像和非涡旋图像,给予标识并作为网络的输入进行训练。其次,采用多种训练策略和模型(LeNet、Alex Net和Goog LeNet),不断调整网络中的训练参数,以达到更高的准确率。识别结果如图21.8所示。
图21.7 基于SLA等值线识别的气旋涡(蓝色)和反气旋涡(玫红色)
图21.8 深度学习分类识别结果与样本数据一致
AE—反气旋涡;CE—气旋涡;Not—非涡旋(www.xing528.com)
表21.1是LeNet、Alex Net和Goog LeNet模型的分类精度对比。LeNet虽然框架简单,但是由于是从底层开始训练,而不是像Alex Net和Goog LeNet对基准模型进行微调整训练,所以能够得到更好的分类精度。在时间上,LeNet的训练时间为Alex Net的1/3,为GoogLeNet的1/7。因此,在训练CNN时,综合考虑时间和结果可以看出,针对中尺度涡数据集采用小模型重新训练要比采用复杂模型而只对模型进行微调得到的分类结果更加精确。
表21.1 LeNet、AlexNet和GoogLeNet分类精度对比
通过采用深度学习建立涡旋的识别分类模型,能够大大提高涡旋图像的分类识别效率,且获得较高的准确率,省去了传统算法进行海洋数据分类识别的计算时间。
3)海洋数据预测
常用的海洋数据预测方法主要分为3类:人工经验、数值模型和统计预测。这些方法受参数设置和人类认知程度的影响较大,且复杂的海洋过程不能通过复杂的公式和繁琐的计算获得较好的结果。将深度学习应用于海洋大数据的预测研究,是将新一代技术与海洋现象预测应用相结合,打破传统海洋模式预测技术瓶颈与认知水平的限制,拓展人工智能等关键技术在海洋中应用的重要方法。
RNN能够用于处理时序数据,而LSTM作为RNN发展的产物,有效改进了RNN的隐含层,可以应对不同种类的时序数据训练。然而针对海洋大数据,Zhang等虽然采用了LSTM模型预测SST数据,但模型中只包含时间信息,缺少空间信息。实际的海洋数据预测要包含时空信息,因此应充分利用深度学习中图像识别模型对空间信息的捕捉与时序模型对时间序列的记忆,将二者结合,建立适用于海洋数据的预测模型。以SST数据为例,Yang等提出采用LSTM与CNN相结合的方式,在构造模型的过程中先进行时间信息的提取,再增加一个卷积层提取空间信息,并在实验中证明时空序模型比单纯的时序模型更能对中国近海数据集进行精准预测。
海洋数据的深度学习预测可以分为两部分,一是三维时序数据的构造,二是时空模型的构建。基本流程和原理如图21.9所示。
总的来说,深度学习是在计算机软硬件和神经网络发展的基础上提出和发展起来的,本节概述了DBN、CNN和RNN这3种关键算法的原理。传统的大数据挖掘方法往往受主观因素的影响而不能真实刻画数据中的隐含信息,深度学习等关键技术的发展为海洋大数据处理分析带来了新的机遇。针对海洋数据重构、分类识别和预测等3方面的具体应用,详细描述了深度学习的具体应用,包括数据的组织和构造、模型的训练方法和结果分析等。
图21.9 深度学习海洋大数据预测工作流程
深度学习对海洋大数据的挖掘,不仅提高了数据挖掘效率,打破了传统技术瓶颈,对于发现海洋规律,认知海洋环境,揭示其相互作用机制,保护利用海洋资源、海洋防灾减灾都有着重要的意义。未来随着深度学习不断应用于社会生活等领域、人们对方法认知不断增强,以及以深度学习为基础的面向海洋的应用服务不断扩大,人们对海洋现象和规律的把握,以及应对风险的防控能力将大大提高,海洋将得到更加合理的开发利用。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。