" I7 `% K5 F( T3 k 作者:刘帅,中国海洋大学信息科学与工程学院海洋科学与技术青岛协同创新中心
$ c! `8 f& g" G( S' i1 v+ q 陈戈,中国海洋大学信息科学与工程学院院长、教授
8 }. |! Q( Z, @7 Y 刘颖洁,青岛海洋科学与技术国家实验室区域海洋动力学与数值模拟功能实验室 . g# W h, B; S4 Z7 f; A
田丰林,中国海洋大学信息科学与工程学院海洋技术系副教授 ; h1 ~- b4 I* i' ]/ ]4 k3 W
' L- u4 F- U3 d
海洋大数据应用关键技术 % B% r+ f( a# m% m0 d
总述及数据处理流程 6 x: s" ?1 o* Q2 u' N! t
海洋大数据的数据来源广泛,类型及应用需求不尽相同,但与其他领域的大数据处理流程类似,在此基础上我们总结出海洋大数据处理的基本流程,如图1所示 。
% u0 k* |: Q$ {- F
2 a) q ?( J3 B' c 图1 海洋大数据处理的基本框架 $ U3 T1 ?$ w5 R O J9 Q% C# g
通过各类设备及技术对海洋大数据进行多源感知及探测,按照一定标准进行数据存储及管理,利用合适的信息融合及挖掘技术对存储的数据进行分析,结合有益的知识对数据进行多维重构,并通过科学可视化的手段展示给用户,辅助对海洋过程的理解、应用决策等。根据Rowley提出了信息管理DIKW(Data、Information、Knowledge、Wisdom)层次模型,以数据为基层架构,按照信息流顺序以此完成数据到智慧的转换。那么在海洋大数据的处理流程中,同样通过知识发现可以再辅助更针对性的数据获取,例如对年周期海面及水体温度“无变点”“无变柱”的研究确立了年际到年代际时间尺度全球变暖的理想观测点,可以指导海面浮标合理的设置和布放,提高全球和区域海洋及气候变化的观测效率。在此流程基础上我们针对具体的应用技术细节,在以下几个分节进行详细介绍。
2 O( R! T' C8 y. r( l 01
[& \) V. j7 R% s) |4 L8 b$ j 海洋数据多源感知与探测 ; b$ H. z9 J; o) H& I
随着各类新型技术和设备的不断更新应用,海洋观测体系已发展成为包括卫星遥感、海洋调查船、观测站、浮标阵列等在内的全球化多尺度的、多学科要素的综合性立体化海洋数据感知与探测网络,本节将从空基、陆基、海基三方面进行海洋数据感知与探测技术的说明。
# @+ y0 p* ]! O. S! F1 _% ? 空基海洋感知与探测技术包括卫星遥感与航空遥感, 其具有高频动态、宏观大尺度、同步观测等优点,是现代海洋多源获取手段的重要组成部分。卫星遥感方面,目前已发射的海洋卫星主要包括以可见光探测为主载荷的海洋水色卫星,如我国的HY-1A、1B水色卫星,美国的SeaWiFS,EOS/MODIS等;以海上动力参数探测为主载荷的海洋动力卫星系列,如Jason,HY-2系列;以及以海洋目标监视为主要目的SAR载荷卫星,如我国的GF-3,加拿大的Radarsat,意大利的COSMO等,以及盐度卫星、静止轨道水色卫星等一些新型载荷。航空遥感方面,主要采用飞机、气球、无人机等飞行器搭载各类传感器进行数据探测,传感器涉及激光测深仪、红外辐射计、侧视雷达等,具有易于海空配合、分辨率高、不受轨道限制等特点,可用于溢油和赤潮等突发事件的应急监测、资源监测等。
9 p1 l) I. D( V+ H `4 p. ^ 陆基海洋感知与探测技术主要指沿岸海洋台站观测,是建立在沿海、岛屿、海上平台或其他海上建筑物上的海洋观测系统。通过安装各类针对性的观测设备能够对人类活动最活跃、最集中的滨海地区进行水文气象要素的观测和资料获取,为沿岸和陆架水域的环境保护、资源开发、科学研究等提供依据。美国是最早建立海洋观测站的国家之一,目前有1 042个观测平台,其中758个能提供实时资料。
1 |# S" Z: x" E4 h* s1 ]6 V8 [ 海基海洋感知与探测技术主要包括海洋浮标、调查船、潜水器以及各类海洋观测阵列。海洋浮标是用于获取海洋水文、动力等参数的漂浮式自动化探测平台, 具有全天候、连续、自动观测等优点,作为离岸监测的重要工具,能够对诸多海洋要素进行综合的监测。海洋调查船能够进行各类海洋环境要素探测、各学科调查等,利用船舶作为平台进行海洋调查是海洋调查观测技术发展的重要方面。潜水器是水下观测、采样等必需的技术装备,包括水下观测型自主载具、水下滑翔器、水下无人航行器及自持式剖面探测漂流浮标,是现代海洋观测的标志性技术装备,丰富了海洋立体观测能力。现代海洋观测也建立了各类区域性海洋观测系统、海底观测系统、全球海洋观测系统,如Argo、GOOS、ONC、IOOS、OOI 、EMSO、NEXOS、HABSOS、NEPTUNE等,其中Argo计划作为历史上首个全球尺度上层大洋温盐测量系统,其数据无论是在空间范围或是数据精度,均达到了空前的高度,为全球大洋温盐场研究提供了历史性的难得机遇。
1 r5 B+ K' {3 D' k! B0 n: p 整体来讲,海洋感知与探测技术向着自动、长期、实时观测和高分辨率方向发展,形成从空间、沿岸、水面、水下、海床的立体多学科观测。我们近年见证了海洋观测技术的巨大飞跃,然而,就整体而言,我们对海洋的观测还远远不足,对2000 m以下的海洋仍缺乏了解,并且观测资料仍缺乏连续性、系统性,观测方面也仍然需要国际的合作。海洋感知与探测技术的发展是制约整个海洋领域发展的瓶颈所在,也是海洋大数据应用技术发展的基础。目前,众多海洋探测发展计划也在实施中,如国际Argo指导组描绘了未来10年该计划发展和扩张的蓝图,将在全球海洋特殊区域,包括海水特别湍流区域、海气相互作用特别强烈区域、气候影响剧烈区域增加空间采样频度,以及在2000 m以下的深海、边缘海和季节性冰区海域进行布置等,这与原先的计划相比体现了真正意义上的全球观测覆盖。
/ ~7 z* A! S; p 02 1 K# t, F5 z, {; n, }
海洋大数据存储与管理技术
3 |6 O+ `0 p- y1 v' D 海洋大数据的存储及管理是进行分析挖掘、可视化及知识发现的基础,有效的存储及管理对利用海洋大数据至关重要。不断增长的海洋大数据体量给有效的存储及管理带来新的挑战,改变了原有的存储管理方式,也带来了新的存储与管理需求,主要表现为: 2 i! p. N+ s4 a9 p
(1)可扩展性存储需求。海洋数据的存量已经接近EB级,日增量也达到TB级,存储规模日益增大,并且随着采样频率的提高,对实时存储及管理要求也日益增长。 # L: M7 C% D9 Q& A% K- j
(2)异构性存储需求。数据结构愈来愈复杂,需要兼顾非结构化、半结构化和结构化数据,有效管理难度增大。
; t# e l! _0 _) x (3)适应性的存储管理架构需求。传统的数据存储更多侧重于数据的一致性及容错性,并且现有数据存储及管理系统的扩展性及可用性不高,并且由于海洋数据的多源特殊性,获取方式不一,导致难以进行有效的集成管理及共享应用。 * h( I* s0 g4 g# _" p9 Q
直接连接存储DAS(Direct Attached Storage)、网络附加存储NAS(Network Attached Storage)、存储区域网络SAN(Storage Area Network) 是常用的企业级存储架构,亦是部分海洋数据的存储参考,然而这些存储架构在面对大规模分布式系统应用时同样存在缺点及限制,例如高并发性及每台服务器的吞吐量是大部分应用的核心需求。并且集中式数据存储及管理方式对于海洋大数据存储存在局限性,主要在线存储资源有限,随着数据体量的增长,难以实现在线存储资源的灵活配置和动态扩展,离线数据获取耗时,无法在线直接访问任意数据。针对遥感数据的存储管理,吕雪峰等在综合对比美国航空航天局(National Aeronautics and Space Administration, NASA), 国家海洋卫星应用中心, World Wind等国内外13个存储中心或系统的基础上,从存储方式、架构、管理方面进行比较,提出分布式集群化存储是存储技术的发展趋势,针对地学数据,也需结合地学数据特点,建立基于空间位置为主导的存储架构。然而目前基于分布式集群存储的研究大部分集中在非空间数据,对空间数据研究较少。随着数据结构的不断复杂化,关系型数据库无法管理半结构化数据及非结构化数据,Google采用的GFS和BigTable技术以及开源Hadoop采用的HDFS和HBase技术有效解决了大数据存储管理需求。相关研究人员针对海洋大数据特征提出需要进行专有云平台建设,黄冬梅等探讨了海洋数据如何适应云存储的相应对策,并讨论了数据划分,构建索引架构等问题,赖积保等构建了一种基于云计算的分布式遥感数据存储模型架构。海洋大数据的存储及管理涉及内容广泛,还包括数据分发共享,数据备份,数据安全、数据有效迁移等问题 。据IDC分析,到2020年90%的数据库将会基于内存优化技术,基于内存数据库In-memory Database(IMDB)的实时数据将会需要新的数据管理架构。
, D$ Z7 y0 ^$ o0 G+ z 03 $ d" ?7 C" J" U+ t
海洋大数据分析挖掘技术 # @. N+ w7 @& I
在海洋大数据时代,如何处理异构数据,从多源数据中进行分析挖掘是非常重要的研究课题,是整体数据流程中重要的一环。由于数据多源观测,数据的优势及完整性不同,对相关海洋大数据挖掘研究首先需要进行数据融合,使能够在一定程度上排除冗余与噪声、降低不确定性,提高信息的精确度和可靠性等。Bahador等对多传感器数据融合方法及概念共性等作了综述,郑宇对跨领域的大数据不同融合方法进行讨论,并与传统的数据融合方法进行了对比,如图2所示,在大数据时代,对于跨领域的海洋大数据融合应首先进行分类知识提取,然后进行知识融合,这也与传统的融合方法不同。相关研究人员还研究了变分同化法、最优插值法、卡尔曼滤波等数据融合技术在海洋环境监测与预测方面的应用。 * f; o1 l( o K6 E: b3 R
, @$ E/ b. Y6 U. V- u
图2 数据融合范式 , Y+ u( S* W5 ?' G4 {+ H
分析挖掘技术是目前海洋科学领域最重要的研究课题之一,众多数据挖掘方法被应用于多源海洋数据进行知识发现。虽然数据挖掘方法已经非常成熟,然而海洋大数据的特征也给有效的分析挖掘带来许多挑战,有效的海洋大数据分析必须根据其特征进行挖掘算法的研究及应用,否则挖掘技术无法发挥其在其他领域相似的影响力。传统的应用于海洋数据挖掘的算法众多,Thomson等按照统计方法与误差处理、空域分析方法、时域分析方法、数字滤波器详细介绍了物理海洋学中的数据分析及挖掘方法,相关研究还从统计分析、分类、聚类、回归分析、关联规则等算法方面进行不同程度的应用介绍。特别是针对Argo数据,许多针对不同海洋参数的新的目标性算法及信息提取方法被提出用来进行海洋现象的发现,如用来估计最大的海洋混合层深度,提取飓风轨迹,追踪及分析中尺度涡 及揭示新的海洋现象“涡旋沙漠”等。
% {! b# I9 T/ e( ^7 e0 @ 海洋大数据的分析和挖掘方法与传统的小体量数据的挖掘有着根本的不同,众多技术用于大体量复杂海洋数据时更需要进行相应调整改进,海洋大数据的分析挖掘具体存在如下趋势: 0 i# q1 k3 j. T
首先是大规模数据下的实时性分析。随着数据生成的自动化以及生成速度的加快,实时性要求愈来愈高,特别是在重大自然灾害及紧急事件处理时能及时反馈指导信息将至关重要。并行计算是实时计算解决的重要途径,然而以MapReduce 为代表典型并行计算模型并不适合于直接处理海洋数据。并行计算需与海洋数据数据分析挖掘方法结合,这将会大大加速海洋知识发现过程,如研究人员通过将传统的中尺度涡旋识别方法与并行计算结合,识别速度提高约100倍。同时维持了近半个世纪的摩尔定律已然失效, “后摩尔时代”的计算提升何去何从仍是讨论的核心问题,传统的计算架构在大数据时代逐渐不能满足需求,新的快速计算架构将持续演进融合。
# y3 H1 u' e! m 其次是自动化智能分析。由于数据规模很大,挖掘过程需要大量自动化辅助有效分析。这就要求计算机能够一方面理解数据在结构上的差异,另一方面理解数据的语义。对大数据分析挖掘来说,设计一个好的分析模式非常重要,Li等将人工智能领域的生物群集智能算法引入遥感影像聚类领域,构建了完整的信息提取技术体系。 6 Q, }- X1 D [' q. z5 \
最后是高维多变量分析。需要在传统海洋挖掘算法的基础上进行适应性改进符合高维多变量挖掘特点,如Chen等提出4D-HEM方法能够从高分辨率时空数据中提取出“自然模态”的精细结构。随着数据维度的不断提高,多变量联合分析挖掘海洋特征,并且克服多变量、类型复合且相互交织的特点,将是海洋大数据分析挖掘的趋势之一。 8 K3 N; P! ~* v/ e0 g5 f
04 6 ]* a* p7 f" I. R* b6 |
海洋大数据可视化技术 6 j2 p# l; d6 X" t, X6 h' d) h# d
可视化技术是人们发现、解释、分析、探索和学习客观世界规律的重要手段,并且在大数据时代,可视化对于感知及最大化利用大数据进行知识发现和决策支持有着不可替代的作用,多学科协同形成可视化结果的过程中甚至会催生新的交叉研究领域。在面临海洋数据洪流及维度、复杂度提升后,利用海洋可视化技术展示海洋数据以及更进一步的利用可视化分析技术挖掘海洋物理过程规律是一个非常重要的研究课题也吸引了越来越多的学者研究。
& ~8 ^- R# j6 l9 w 海洋可视化领域起源非常早,中世纪时期,人们就开始使用表示海洋主要风向的箭头图和天象图,随着计算机图形学的发展,可视化从单一的创建图形图表,发展到利用更高级的渲染技术创建更复杂的可视化模型。目前,海洋可视化工作从数据类型上区分,主要包含矢量场可视化及标量场可视化,其中矢量场可视化采用的方法主要有:图表法,几何法,纹理法,拓扑法。其中Jobard等人最早进行了基于纹理和粒子追踪的流场可视化方法研究,为复杂流场可视化奠定基础。NASA下属的科学可视化工作室目前已完成超过5 300个海洋可视化视频,其中利用流线技术完成的“Perpetual Ocean”视频,发布后引起了海洋学家的广泛关注,效果如图3所示。 & U& v0 p' y1 f) {
s! N* X9 `. i |8 c# z/ R
图3 NASA全球海洋流场流线效果图 ; |( g( \: {. _1 [* X8 N* p
在标量场可视化算法方面,主要集中在体绘制算法方面研究,其中加州戴维斯马匡六团队在大规模体绘制、实时光照、多变量特征提取等方面都取得相应成果。此外,在科学可视化分析平台方面,World Wind平台、Skyline平台、OSG平台及Google Earth均可进行海洋或大气环境等的仿真及可视化,许多工作亦基于此进行二次开发及研究。陈戈等基于MVAR架建了i4Ocean平台,并进行了基于LIC及Ray-Casting算法的海洋可视化相关工作研究。在海洋可视化分析方面,其基本理论与方法,仍然是正在形成、需要深入探讨的前沿科学问题。Daniel 等提出了可视化分析流程,如图4所示,起点是输入的数据,中间是对数据的可视化结果和从数据中提炼的数据模型,终点是提炼的知识,可对可视化结果进行交互的修正,也可调节参数以修正模型。针对数据可视化的交互设计,Shneiderman提出了经典的探索流程: 先总览、缩放和过滤, 再分析细节。已有相关研究利用多种可视化分析方法对海洋数据进行特征提取及知识发现,如在高分辨率海洋大气模型中对涡旋进行的可视化分析探索等。这对海洋数据的可视化提供了许多经验与借鉴。
' F! |7 W$ {2 u/ K q/ g1 k7 Y. ]8 |6 ]) n2 l1 t; c& z- y; a
6 a" k8 s3 ~0 D: [ v* @. `0 W 图4 Daniel 等提出的可视化分析标准流程
, y/ G: ]/ K7 H- K6 M7 D% D 海洋数据的爆炸性增长给可视化带来了新的挑战。 - i# U7 I' W3 I) q
首先是数据体量及多维度的问题。当前针对大规模海洋数据可视化能力还较弱,相关研究亦是欠缺,大规模的数据单机绘制主要依赖于硬件加速、信号处理与特征表达等手段,例如利用GPU构建分布式计算与可视化架构,在大规模标量场数据上进行并行可视化。针对多维数据分析中,结合信息可视化方法的多维科学分析应用是一个非常有前景的研究方向,目前已有在信息可视化领域常用的平行坐标坐标方法应用在海洋数据上的研究案例。
8 N+ ^' x7 h" e* K5 G 其次是可视化与海洋常规挖掘分析算法结合的应用问题。目前已有的结合分析如将小波分析结合可视化进行分析探索,将原位可视化应用于海洋模式的计算改进。 . o9 F1 o5 D3 I; Q5 G# W8 F
最后是可视化平台及架构的研发。Chris总结了科学可视化领域的面临的重要问题,其中指出集成的问题处理环境是始终存在的重要问题。目前的海洋数据可视化工具处理问题能力仍相对单一,扩展性不强,科学家所需要的不仅仅一个可视化结果,集成的交互处理方式及扩展分析架构,特别是对海洋多源异构数据的整合及对多种可视化算法综合利用仍是海洋大数据可视化面临的问题。 ( h# t+ }9 q/ _" W; P; k5 E' Z
海洋大数据应用现状及应用前景
2 _ l X! v$ e; o# K* ?5 f 海洋大数据应用现状
1 h" `8 A, X9 U 海洋大数据蕴含着难以估量的巨大价值,能够为气候、生态、灾害等领域提供可靠的科学依据,为人类感知、预测物理世界提供前所未有的丰富信息。例如:通过对气候模型及海洋数据分析,发现了全球水循环的强化将导致全球2~3 ℃的升温,以及全球的升温将会导致小麦及咖啡的大幅减产;通过对遥感及声学数据研究,可获知海洋中的生物群落和物种分布,为保证海洋生态平衡提供了丰富的科学参考 ;发现厄尔尼诺以非线性方式对印度尼西亚干旱条件作出响应,并加剧火情及烟污染;通过对“海王星”计划获取的洋中脊岩浆活动观测数据进行分析,能够对海底地震活动进行预警预报。通过对海洋浮游生物数据的研究发现,海水变暖及气候变化将导致美国及欧洲霍乱和其他传染病的增加; : Q3 h: Y% P% @
如何更好地发挥海洋大数据优势,挖掘其蕴含的巨大价值将对人类社会的发展至关重要。NOAA建设了综合海洋观测系统,整合海洋观测的资源和技术来应对海洋应用的各类需求,同时为了应对不断增长的大数据处理需求,其将三个数据中心(气象数据中心,地质数据中心,海洋数据中心)联合组成国家环境信息中心NCEI,专门处理及应对地球系统数据信息相关应用需求。法国海洋开发研究院IFREMER作为欧洲领先的海洋数据研究机构,为应对海洋大数据管理及应用需求建设了9个数据发布中心,负责海洋大数据产品处理、存储和发布,支持不同领域的研究活动和基于空间数据的应用。2011年,法国海洋数据实验室的Nephelae平台项目率先采用大数据和云计算的相关技术,在云端对用户的请求以及数据进行处理,并返回结果。
2 e! j! c* l7 j* g/ W% H- w6 y 海洋大数据的应用目前还存在以下问题:
- s }, q6 L1 T0 z1 y (1)在海洋数据标准方面,由于观测设备及应用的不同,以致数据难以得到统一管理与应用,因此如何打破壁垒,建立统一数据标准,以一种集成共享的模式分发空间数据、协同完成传统数据的处理是问题之一。
1 r; F1 s( i; v! V) a$ H) c# ] (2)在海洋大数据共享方面,由于领域的独立性及数据的安全性,导致海洋数据往往产生众多信息孤岛,无法充分发挥数据价值,如何解决数据共享难题,避免信息系统的重复建设及资源的浪费是问题之二。 2 I0 T: ^, x( F6 U# x) @* f7 O
(3)在海洋大数据分析方面,由于数据口径的不同,对于一体化的数据从融合、挖掘、可视化等技术存在兼容性较差的问题,如何将各学科融会贯通,突破关键通用分析技术,实现海洋数据一体化的分析是问题之三。
7 f4 T( W- Y& f- ~" z4 ^, v7 I' w (4)鉴于大数据全链条中前段问题的存在,导致海洋大数据应用落地的困难,如何实现海洋大数据的一体化产业化应用,为政府部门提供决策支撑,解决民生、国防、安全、环保等领域的问题,保障人类社会的健康持续发展是问题之四。 0 ]6 y2 b& ^% D! T
综上所述,目前海洋大数据的应用仍存在许多问题仍需更深一步的研究与拓展。
& `: |/ Q) w' a& l$ I' N. }$ c: c 海洋大数据应用前景
! |. J5 o8 E! y4 X6 y( Q 未来海洋大数据将广泛应用于海洋环境监测、防灾减灾、海洋资源开发、经济建设等领域,通过海洋大数据的挖掘分析,推动海洋行业应用的发展。在风暴潮监测中,利用海洋大数据结合沿海城市信息,通过大数据分析和挖掘,提升风暴潮预警报、防灾减灾、灾害评估水平;在远洋渔业中,利用海洋大数据结合船舶位置信息、作业信息、渔情预报,做到未捕先知,挖掘远洋渔业的规律和潜力;在溢油监测中,通过海洋大数据结合船舶交通信息、港口航道信息,分析溢油的特征和规律;在海洋资源开发中,利用海洋大数据,对油气开发的勘探、开发、维护提供全方位的支撑,提高油气田的生产效率。
: m; @+ H, k! C- B/ l+ ] 此外海洋大数据充分挖掘及应用还很有可能解决一些长期困扰科学家的重要科学问题。如厄尔尼诺/拉尼娜,作为典型的气象异常,它会直接引起海温异常,导致天气、气候等不同尺度的海-气灾害,同时还会引起全球众多区域的极端天气、火灾、滑坡等次生及衍生陆地灾害。但是目前科学界对厄尔尼诺/拉尼娜的发生周期(2~7年)及机理研究尚不确定,无法做到准确预测及预报,特别在厄尔尼诺/拉尼娜发生当年,容易在西北太平洋和东北太平洋形成威力强大的登陆型台风和飓风,它们或北上或西移,对沿线国家的人类生命财产安全、社会经济发展等带来巨大的破坏。我们认为很有可能在海洋大数据支撑下解决这类重要的科学问题。 . D( c: ?# F8 |1 R; B5 U
来源:节选自《海洋大数据应用技术分析与趋势研究》,原刊于《中国海洋大学学报(自然科学版)》2020年01期
. Z" s9 q1 O8 x3 p" b6 _ 转自:中国海洋发展研究中心 & Q6 I$ f# r/ I3 u
* X) k# j4 q s0 o7 i4 Q
. O* c+ Q2 C4 b! x/ J4 r: w+ c9 n! Y
5 p j ~4 u3 i. m/ q+ S
" A& w1 j& ]% F, X" ?0 Z |