引言
* h2 V6 G4 p: J4 o" D3 p+ {+ R当今, 信息技术和网络技术发展迅猛, 云计算、人工智能、数据挖掘、虚拟现实等技术不断推动着“智慧地球”物联网快速发展, “数字地球”、“数字海洋”等概念相继涌现, 然而, 物联网时代下海洋大数据的综合应用和信息服务能力还相对滞后 (李四海等, 2012) 。通过构建海洋大数据平台, 组建海洋领域的物联网, 统筹海洋观测、网络、信息等, 可以推动海洋信息化建设, 实现海洋管理、信息服务、分析决策的智能化。
r* R g2 C7 }4 `海洋大数据平台建设关键技术 - Z2 e) k! Z' ? u
关键技术一:海洋大数据存储和计算 |: G9 o+ y2 J
随着信息技术和监测设备的快速发展, 卫星和数以千万计的传感器开始在海洋环境检测中发挥重要作用, 导致海洋数据量急剧增长。而海洋数据获取手段多样化, 导致海洋数据格式呈现多源、异构等特点, 对数据存储空间、传输系统、计算系统、存储安全等提出了更高的要求 (王辉等, 2015) 。 ! @$ c5 E# k& _/ R6 h
大数据处理的核心技术包括分布式文件存储以及云计算。分布式文件存储即分布式文件系统+No SQL数据库, 典型的代表为Hadoop的HDFS+HBase文件存储方案、谷歌的GFS+Big Table。分布式计算从Hadoop的Map Reduce, 发展到Spark内存计算以及Storm流式计算或Spark Streaming流式计算等。云计算作为一种网络应用模式, 为海洋大数据存储和管理提供了有效的解决方案。针对海洋大数据特征, 需要进行专有云平台建设, 为海洋大数据提供存储、访问和计算服务, 构建云计算环境下的海洋环境监测大数据布局策略及处理平台 (董贵山等, 2015;杜艳玲, 2014;黄冬梅等, 2015;解鹏飞等, 2015) 。 7 D4 f2 M/ d/ i# k! p+ |
关键技术二:海洋大数据分析与挖掘
8 T2 W; Q% z5 t" u" F对海洋大数据进行分析与挖掘, 从中提取数据的潜在价值, 是海洋大数据平台建设的核心, 也是将海洋大数据应用于海洋防灾减灾、海洋环境监测、海洋渔情预报等领域的基础。海洋大数据的分析与挖掘技术包括时间序列分析、分类、时空聚类、时空异常检测、关联规则分析、遗传算法、神经网络、预测模型、模式识别、回归分析、机器学习等。 ( ^0 b6 \) S* m. |- V9 }
其中机器学习是数据挖掘的重要方法之一, 其基本思想是利用大量的训练数据求解出分类或回归问题的决策函数, 使机器能从大量历史数据中学习规律, 从而对新的样本做智能识别或对未来做预测 (何清等, 2014;李运, 2015;余凯等, 2013) 。深度学习可对输入数据逐级提取从底层到高层的特征, 构建具有很多隐层的机器学习模型和海量的训练数据, 学习更有用的特征, 最终提高分类或预测的准确性 (余凯等, 2013) 。 ; D' |- e) E3 d! A' h" M
关键技术三:海洋大数据可视化 $ S0 l; a- E# }! L0 Y) t0 L% r
海洋大数据可视化即将海洋科学信息科学相结合, 对海洋数据的进行视觉表现, 获取蕴含在海洋环境中的海洋物理、生物和化学特性、规律及关联关系 (苏奋振等, 2014) 。随着社会对海洋领域关注度的提高, 海洋大数据的展示手段必须更加直观化、大众化。 C" v- {# @" W' ~
由于海洋大数据拥有数据量大、高维性强、要素众多、与地理信息数据紧密关联等特点, 数据管理与信息挖掘具有复杂性, 故无法直接通过传统方法进行展示。如今, 随着海洋大数据的时代到来与“互联网+”行动计划的不断推进, 依托地理信息系统和海洋时空数据模型, 结合信息领域可视化挖掘方法, 如3D仿真、虚拟现实等技术, 建立面向知识发现的海洋大数据可视化环境, 挖掘多维要素之间的相互关系, 是今后发展的主要方向 (刘健等, 2014) 。 ( o; U1 u6 A& I7 [" V
海洋大数据服务平台实例 2 ?! Y% e7 G3 b5 Q0 w6 L( e
实例一:清华大学海洋大数据平台 3 Z7 D5 R* @, S2 E: }, ?
清华大学海洋大数据平台依托清华大学遥感大数据研究中心、清华大学海洋技术中心、清华海峡研究院、以及清华大学物联网遥感大数据研究中心, 与国际、国内的海洋相关机构在数据共享、技术研发、设备和人才等方面合作, 对包含海洋自然科学类数据和海洋社会科学类数据在内的各类数据库进行有序整合, 构建海洋自然科学和社会科学数据库网络, 建设海洋大数据共享与综合应用服务平台。该平台建设主要包括5个层面:数据获取平台、数据存储与计算平台、数据分析与应用平台、海洋信息可视化平台、海洋决策与发布平台 (洪阳等, 2016) 。
+ X* L4 I. Q2 }8 s实例二:海洋战略舆情环境信息检索数据库
2 `) T h1 h: r" T4 n国观智库暨“清华—国观海洋研究中心”从2014年中开始筹建“海洋战略舆情环境信息检索数据库”, 将日常的检索工作智能化。在一期建设工程中, 挑选了200多家重点智库、重点媒体、重点政府涉海网站作为监测对象 (只限于提供公开信息的网站) , 针对近100个关键词实施全天候、全网站检索。在实际工作中, 又补充检索60家智库。每天检索的信息被分类筛选、整理入库, 依据国观智库的分析方法和相应信息分类维度, 进行有序管理。
! z& I" O; h# W* S1 f* h I( x目前, 国观智库正在对这个数据库进行二期改造工程, 改造任务集中在3个方面:一是在原有基础上增加监测对象约200个, 重点加强智库监测;二是增加监测内容, 重点补充海洋经济信息、海洋政策信息、海洋法律法规信息, 强化数据库的全领域特性;三是植入简易分析模块, 实现部分自分析功能。此外, 该数据库系统还在技术上尝试扩充小语种监测对象, 尤其在东北亚、东盟两大方向。 2 j- e* c7 M: O
海洋大数据面临的挑战和机遇
1 U. W7 \, t1 L海洋大数据共享
+ @8 q8 H5 {) Y' M5 e- B* V数据的共享是海洋大数据的核心, 数据不共享就不可能称其为大数据。但由于我国海洋观测平台的条块管理模式, 海洋自然科学类大数据分散在海洋局、各大高校、中科院等研究机构, 以及“三桶油”、国资委、海洋局等央企和决策部门, 数据共享和聚合仍存在很大的瓶颈和障碍。需要引入大数据理念, 建立数据共享机制, 采用大数据的分布式存储+云计算平台的模式, 对多源、异构的数据进行整合和重新部署 (宋坤, 2015) , 使得数据在所有者手里, 但仍可以根据使用者或开发者的要求进行数据调用和处理。如“宝船网” (www.myships.com) 提供了数据开发访问的API给用户, 可充分发掘海量数据的应用潜力。 + N% C- T0 D( V* Z
海洋大数据管理 + ^& i8 r5 S: ~+ Q m
随着大数据时代到来和中国制造2025规划的推进, 各个领域尤其是工业领域内大数据搜集、管理、分析、应用越来越受到重视。相对而言, 海洋领域内的数据搜集和管理相对滞后, 更重要的是, 受体制的影响, 海洋自然科学类数据在体系内严重分散、海洋自然科学类数据和社会科学类数据严重分割, 海洋强国战略的实施迫切要求海洋大数据的归集和整合。海洋大数据综合平台的开发和建设, 在完善海洋决策的数据基础、促进海洋决策科学化方面将会有历史性的贡献。同时, 就技术变革推动机制变革角度而言, 海洋大数据综合平台还会有利于海洋部门职能的整合, 推动海洋管理体制机制的重组完善。
( T8 [: n( O! h4 _* P, V海洋大数据安全
. [7 w+ H9 s; V+ [# h0 n对于海洋大数据平台, 海洋数据采集、传输、存储、数据挖掘与分析、信息服务等过程形成一个完整的链条, 在链条的各个环节都存在数据丢失、数据篡改、数据越权访问等风险 (董贵山等, 2015) 。在当前网络与信息安全的严峻形势下, 海洋大数据作为一种重要的战略资源, 其数据安全 (机密性、完整性、认证性、可控性和不可抵赖性) 已经上升到国家安全的层面 (黄冬梅等, 2016) , 也是未来海洋大数据面临的一大挑战。海洋大数据在采集与传输阶段, 需要考虑多源数据、传输介质和传输频率带来安全的差异性;在数据存储与处理阶段, 需要在数据访问、计算、共享、监管等方面保障数据的安全性;在数据发布与推送阶段, 需要在实现智能化服务的基础上, 保证数据的实时性和真实性。
: F9 t' E0 @% x& D, o展望
7 ]2 P l/ W# c6 s未来, 海洋经济作为陆地经济的延伸和补充, 在经济层面还会凸显更丰富的意义。目前海洋大数据搜集和管理更多偏重于海洋自然科学类数据, 海洋社会科学类数据的整合尚未引起足够重视; 两类数据的严重分散, 使得目前的海洋决策体系呈现出较为明显的跛脚状态, 在海洋强国战略实施和国际关系实践领域中屡遭尴尬。需要遵循海洋自然科学数据与社会科学数据有机结合, 统筹服务海洋事业的发展。
_( p" N8 k- f6 I; b5 w4 v, J8 X% K人类历史和国际关系的发展, 已经证明海洋在国家发展中的重要性, 发展海洋大数据可以为建设海洋强国提供重要支撑。需加强顶层设计, 进行各界统筹、资源整合, 推进海洋大数据平台建设。未来海洋事业的发展会贯穿多个决策系统、影响多个战略环境、连接多个产业系统, 它对中国政治、经济、文化、社会的影响必将是全方位、深层次的。从这个意义上说, 海洋大数据以及相应的海洋大数据平台建设也将对中国产生广泛而深远的影响。 . e% R3 ?& A/ z
文章来源:本文节选自《海洋大数据:内涵、应用及平台建设》,原刊于《海洋通报》,2017年04期。
, W2 j! M j U/ [) v+ f! D$ y作者:侯雪燕,清华大学水利水电工程系,助理研究员;洪阳,清华大学水利水电工程系,教授;张建民,清华大学土木水利学院院长、中国工程院院士;邹亚荣 中国卫星海洋应用中心,研究员;石晓勇,国家海洋局海洋减灾中心教授;任力波,国观智库总裁兼清华国观海洋研究中心执行主任;程晓,北京师范大学全球变化与地球系统科学研究院院长;张彪,南京信息工程大学海洋科学学院教授;于华明,中国海洋大学海洋与大气学院副教授;郭振华,清华大学深圳研究生院,副研究员;崔要奎 清华大学深圳研究生院。 6 s: b( E: z( g2 F; B$ O
! N, O2 ~- D, l5 v
|