具体的航运大数据处理方法其实有很多,但是根据长时间的实践,本书作者总结了一个基本的航运大数据处理流程,有助于大家理顺大数据的处理。整个处理流程可以概括为五步:航运大数据采集,航运大数据预处理,航运大数据存储及管理,航海大数据分析及挖掘,航运大数据展现和应用。
图3-1 航运数据处理流程框架
1)航运大数据采集
由图3-1可以看出,航运大数据种类繁多,对不同的系统数据进行分析,根据不同的数据分类,可以设计不同的数据采集方式。航运数据的大致分类见表3-1。
表3-1 航运数据分类
(续表)
根据不同的数据分类,采取不同的采集方式见表3-2。
表3-2 数据采集方式
以船舶航行数据远程采集系统为例,介绍一种基于卫星通信的船舶数据远程采集系统,该系统采用嵌入式控制设计,组合船舶C站和自动识别系统(Automatic Identification System, AIS)设备组建系统,利用C站的卫星通信功能接收陆地远程控制指令,通过嵌入式控制系统实现对C站和AIS设备的远程控制。
(1)从C站设备中采集航行信息。主控单元从C站设备获取的信息主要有船舶的当前位置、航迹向和船速。主控单元向C站发出/se-p0指令,C站接收到该指令,就会在5s内送出该信息,主控单元与C站的通信采用ASCII码形式进行。
(2)从AIS设备中采集航行信息。主控单元从AIS设备中获取的信息比较多,大体可分为两类。一类是船舶的静态数据,船舶在一段时期内(例如一个航期)保持不变的数据,包括船名、呼号、吃水、货物、船员人数、目的地、到港时间等。另一类是船舶的动态数据,包括船舶的当前位置、航迹向和船速。获取AIS的Long Range口中的信息通过/S | AILRI0和/S | AILRF0一对指令来实现,主控单元与AIS的通信协议遵循IEC 61162-1标准。
2)航运大数据预处理
虽然采集端本身会有很多数据库,但是如果要对这些海量数据进行有效的分析,应该将这些来自前端的数据导入到一个集中的大型分布式数据库或者分布式存储集群,并且可以在导入基础上做一些简单的清洗和预处理工作。导入与预处理过程的特点和挑战主要是导入的数据量大,每秒钟的导入量经常会达到百兆,甚至千兆级别。
例如对图3-2所示船舶航行数据远程采集系统冗余信息的数据处理:船舶C站和AIS设备都提供船位、航向等信息,当岸站请求船位信息时,系统主控单元就要从C站或AIS中提取一个船位信息,或者融合两者的船位信息,发送给岸站。具体选用哪一个方法,就是冗余信息的处理策略问题。该系统综合考虑系统的可靠性、可操作性,采用了一种简单实用的方法:当AIS信息有效时,船位信息取自AIS设备;当AIS信息无效时,船位信息取自C站设备;并且在发往岸站的船位信息中,包含有船位信息源的标志。
图3-2 数据远程采集系统的组成框图
对发送船舶航行信息处理:主控单元收到船舶航行信息的请求命令,就对该命令作出响应,将请求的航行信息发送到指定的地址,地址可以是移动C站、传真和电子信箱等。信息发送既可以报文形式进行,也可以数据报的方式进行[8]。
3)航运大数据存储及管理
航运大数据存储与管理要用存储器把采集到的数据存储起来,建立相应的数据库,并进行管理和调用。重点解决复杂结构化、半结构化和非结构化大数据管理与处理技术。主要解决大数据的可存储、可表示、可处理、可靠性及有效传输等几个关键问题。开发可靠的分布式文件系统(Distributed File System, DFS)、能效优化的存储、计算融入存储、大数据的去冗余及高效低成本的大数据存储技术;突破分布式非关系型大数据管理与处理技术,异构数据的数据融合技术,数据组织技术,研究大数据建模技术;突破大数据索引技术;突破大数据移动、备份、复制等技术;开发大数据可视化技术[9]。
开发新型数据库技术,数据库分为关系型数据库、非关系型数据库及数据库缓存系统。其中,非关系型数据库主要指的是NoSQL数据库,包括:键值数据库、列存数据库、图存数据库及文档数据库等类型。关系型数据库包含了传统关系数据库系统及NewSQL数据库。
开发大数据安全技术,包括:改进数据销毁、透明加解密、分布式访问控制、数据审计等技术;突破隐私保护和推理控制、数据真伪识别和取证、数据持有完整性验证等技术……
本书以天津海事局存储系统为例,介绍存储系统的建设实施方法。该存储系统使用了Neocean IX1000作为核心建立IP-SAN(Internet Protocol-Storage Area Network)存储区域网络。IX1000提供4个主机端口,4个1.6 TB裸容量的智能IP磁盘组,采用500 GB的SATA磁盘,总裸容量达到8 TB。海事局的视频、数据和应用服务器通过安装软件的iSCSI Initiator,可结合千兆以太网卡实现与存储设备的连接。
此外,还通过Neocean IX1000存储系统,实现了数据的集中整合和统一管理。系统采用存储系统软件包Quidview Storage Management Tool,不仅实现了智能化的卷管理、监控管理等一系列功能,同时还使管理员管理存储空间、存储设备变得简单化和智能化,从而借助Quidview Storage Management Tool,管理员可以直观地完成对设备的基本配置操作和清晰的性能监控、故障管理等功能。
针对不同的应用服务,可根据其不断增长的容量需要,动态分配存储空间,以避免空间的浪费。在不影响应用软件存取数据的前提下,Neocean IX1000存储设备可独立地扩充存储空间。此存储系统容错能力强,具有RAID-1/0/5/10/50等高级功能,可提供各种等级的数据冗余策略。(www.xing528.com)
不仅如此,Neocean IX1000存储系统还具有优秀的I/O吞吐能力和高速通路带宽,可完全满足海事系统各种业务应用的需求[23]。
4)航运大数据分析及挖掘
航运大数据分析技术包括:改进已有数据挖掘和机器学习技术;开发数据网络挖掘、特异群组挖掘、图挖掘等新型数据挖掘技术;突破基于对象的数据连接、相似性连接等大数据融合技术;突破用户兴趣分析、网络行为分析、情感语义分析等面向领域的大数据挖掘技术。
航运大数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。数据挖掘涉及的技术方法很多,有多种分类法。根据挖掘任务可分为分类或预测模型发现、数据总结、聚类、关联规则发现、序列模式发现、依赖关系或依赖模型发现、异常和趋势发现等;根据挖掘对象可分为关系数据库、面向对象数据库、空间数据库、时态数据库、文本数据源、多媒体数据库、异质数据库、遗产数据库,以及环球网Web;根据挖掘方法分,可粗分为机器学习方法、统计方法、神经网络方法和数据库方法。在机器学习中,可细分为归纳学习方法(决策树、规则归纳等)、基于范例学习、遗传算法等。统计方法中,可细分为回归分析(多元回归、自回归等)、判别分析(贝叶斯判别、费歇尔判别、非参数判别等)、聚类分析(系统聚类、动态聚类等)、探索性分析(主元分析法、相关分析法等)等。神经网络方法中,可细分为前向神经网络[BP (Busic Point)算法等]、自组织神经网络(自组织特征映射、竞争学习等)等。数据库方法主要是多维数据分析,OLAP方法和面向属性的归纳方法[10]。
从挖掘任务和挖掘方法的角度,着重突破以下方面:
(1)可视化分析。数据可视化无论对于普通用户或是数据分析专家,都是最基本的功能。数据图像化可以让数据自己说话,让用户直观地感受到结果。
(2)数据挖掘算法。图像化是将机器语言翻译给人看,而数据挖掘就是机器的母语。分割、集群、孤立点分析还有各种各样的算法让我们精炼数据,挖掘价值。这些算法一定要能够应付大数据的量,同时还具有很高的处理速度。
(3)预测性分析。预测性分析可以让分析师根据图像化分析和数据挖掘的结果做出一些前瞻性判断。
(4)语义引擎。语义引擎设计需要有足够的人工智能以足以从数据中主动地提取信息。语言处理技术包括机器翻译、情感分析、舆情分析、智能输入、问答系统等。
(5)数据质量和数据管理。数据质量与管理是管理的最佳实践,透过标准化流程和机器对数据进行处理可以确保获得一个预设质量的分析结果。
例如基于数据挖掘的船舶行为研究:从2002年至今越来越多的船舶安装有船舶AIS设备。该设备能够自动连续发出本船静态信息、动态信息和航次信息,同时也能够自动接收周围船舶发出的这些信息,并与海岸AIS基站进行信息交换。我国经过近十年的建设,已形成了沿海AIS基站网络框架并积累了海量的船舶AIS数据。海上交通特征规律蕴含于海量的船舶AIS历史数据中。从海上交通工程的角度研究船舶行为模式,利用数据挖掘技术对AIS数据进行分析,所挖掘的船舶行为知识可以运用到船舶航行位置预测、船舶异常行为检测及海上交通流模拟等研究领域,为港口主管部门的通航环境管理等提供理论依据。
基于AIS数据运用数据挖掘技术分析船舶行为。在阐述了数据预处理过程的基础上,提出建立船舶行为模型,以大连港水域的船舶AIS信息为例,运用地理网格技术降低船舶航迹数据的复杂度,对船舶行为模型中单一属性进行统计分析,在此基础上,进一步运用关联规则算法挖掘包含时空维度的船舶多属性行为模式。获取的知识可以运用到船舶航行位置预测、船舶异常行为检测及海上交通流模拟等研究领域。
5)航运大数据展现和应用
航运大数据技术能够将隐藏于海量数据中的信息和知识挖掘出来,为航海、海运、海洋等经济活动提供依据,从而提高整个领域的运行效率,大大提高整个航海经济的集约化程度。在我国,对各大班轮联盟从中国出口到全球港口的船期的挂靠频次的大数据进行一系列提取、整理、分析、转化可以得到港口热力图,对于航运业班轮公司来说,形象化以后的大数据可以提供一系列的预测分析。从这张图中可以看到各大班轮联盟在全球的网络布点情况,为班轮联盟运力分析提供形象的支持。同时,也可以一目了然地看出中国出口贸易的热点分布,为航线开发的规划提供依据。当然,如果深入发掘,还可以利用大数据做更多的事。
(1)可以利用大数据对未来航线的国际贸易货量进行预测分析,预知各个港口的热度。
(2)可以利用天气水文等情况对运力投放进行预警,以便在大雾台风等不利天气情况下及时进行操作调配。
(3)实时识别客户行为,对客户行为进行分析,对目的港弃箱行为进行预警,防止不必要的损失发生。
(4)还可以基于舱位及市场状况,进行实时调价行为。
航运大数据技术应用也正改变着航运电商市场。这几年不仅可以看到像海运订舱网、宁波航运订舱平台这样从运价切入的国资背景电商也可以发现像Shippingren这样以SNS为切入点的创业公司悄然兴起,同时像船讯网这样提供船舶定位和提供船期实时查询的中国船期网的数据服务公司建立并快速发展起来……可以预见,随着航运市场的互联网化,航运业对数据的渴求也越来越明显,电子商务为航运业掀开新篇章也指日可待。
事实上,航运大数据的魅力不止于此。在航运业,数据服务越来越重要,在国内,从数以百万计的班轮船期信息,到由此衍生的动态船舶地理位置,还有全球总数高达1 700多万TEU的集装箱实时地理位置信息,以及背后可挖掘的国际贸易相关客户信息、商品资料信息及资金流信息等。另外,中国国际贸易总金额是每年4万亿美元。这些业务必然产生海量的数据,这些海量数据都需要相应的存储技术作为支撑。以下为天津海事局存储系统为例介绍大数据的应用[22]。
天津海事局是国家重要的水上安全监督管理、防止船舶污染、航海保障管理的职能部门,而H3C(华为3Com)存储系统为天津海事局海量数据存储及快速响应巡航系统的要求提供了一个良好的基础平台。H3C的IP存储设备帮助天津市海事局突破原有FC( Family Computer)存储的传输通道限制,结合以太网、无线网、广域网构建了全新的信息化平台基础。
此项目完成后,海事巡逻船上多媒体计算机终端可以利用天津海事局无线网络系统登录海事局业务系统查询法规数据库、船舶动态数据库、船舶登记数据库、船员数据库、通航数据库、事故应急数据库、AIS数据库等各种海事局业务数据,并且可以在巡逻船登录海事局的网上办公系统进行网上办公。天津海事局的存储系统建设整体规划如图3-3所示。
图3-3 天津海事局的存储系统建设整体规划图
在该存储系统中,选用H3C的Neocean IX1000为核心存储系统。一台IX1000能够提供6.4 TB的数据容量,410 MB/s的吞吐量和54000的IOPS。 IX1000具备4个GE接口,可以支持应用服务器系统采用多块网卡的高可靠性设计,完全能够满足应用对于存储区域网络的性能和可靠性的要求。
所有需要连接IX1000的服务器,如数据库服务器、邮件服务器等,只要安装千兆网卡,并安装软件的iSCSI Initiator,就可以通过以太网获得存储设备,从而不需要购置价格昂贵的HBA卡。IX1000支持的操作系统:Linux、 Windows和Netware,都支持这种千兆网卡加软件的iSCSI Initiator的实现方式。
对于其他需要扩展存储的应用服务器来说,可以安装操作系统所对应的iSCSI Initiator,配合以太网卡连接到存储系统。IX1000通过划分不同的卷,以保证各个应用系统互不干扰。如果以后随着业务的增长,需要增加新的服务器,新增设备可实现即插即用。用网线连接到存储区域网络就能访问后台存储设备里的数据。基于标准化IP的存储交换平台使得各种数据管理功能能够像电器插入电源插座一样,轻易地进行部署应用。
除正常的数据传输之外,巡逻船还可以安装视频监控终端,通过音视频的压缩技术随时将海域情况传回指挥中心,方便指挥中心调度和违法船舶的实时记录和查询。因此,该项目全面增强了天津海事局的信息技术水平,为天津海事局尽快实现“数字海事”构想做出了积极探索[23]。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。