' d6 W% v `( [# \ 在过去几年几乎所有的大型海洋会议,您都会听到这个词语:大数据。通常,这意味着空前的海量数据通过开放的方式被人们利用,可用于科学研究,计算机模型和预测以及改善产品和服务。 ) l- _/ [0 f( h8 ]- |0 O: V
4 Q& A$ }- P5 I9 F- Z3 |( U
虽然每一个大事件都会抛出很多流行语,但大数据确实名副其实。就像蒸汽机车,疫苗和广播的发明一样,大数据正在彻底改变我们的生活,工作和娱乐方式。和互联网和全球导航系统变革人类活动一样,海洋大数据将深刻影响与海洋相关的所有产业、所有人,影响环境气候和人类命运,帮助人类比之现在以百倍千倍的效率、空前合理地经略海洋。 ; c8 X: e4 D, H( V- q6 f& B* i. Y
这与我们在互联网普及的最初几十年所看到的情况完全不同。大数据革命不仅仅是将现有数据数字化。它涉及实时地从正在进行的活动中提取并提供更多数据。实际上,根据麻省理工学院(MIT)媒体实验室的数据,过去两年中收集的海洋数据比往年所有数据的总和还多,并且没有放缓的迹象。海洋数据来源广泛、种类繁多、时间分辨率跨越不同尺度,同时需要实时处理分析用于各种决策支持,因此海洋大数据已然成为“大数据”的典范。
D/ t+ [, E: P3 X3 o& |9 z 欧盟海洋大数据在航运、溢油应急、海洋能开发领域的探索应用 # V; \) f0 v, U8 L" p& k& N7 ~
Bigdata Ocean " J# T( | ]2 }) N/ s$ h8 @8 R! C
▼ ' t& _0 k, }) `( e \
本文转载自:深海智人 ; B/ y1 f2 T; b
作者| 火体虫
# i, X- Z+ h0 I: u8 z+ ^ 编辑| 三叶虫
0 [$ ?3 B+ ]4 Z: }* Y' ` 由于可用的数据比以往任何时候都多,使用传统的数据库和软件技术处理数据可能很困难,这正是云计算、云托管和云数据存储和部署发挥作用的地方。云计算是指通过网络对服务交付的计算资源的按需利用。简而言之,它是一个虚拟框架,在一个可扩展优化的基础设施上实现数据共享。 1 e. v' |0 r- u2 M: |3 x6 H
1
* S& T: o" Z3 N( ]4 ^ NOAA海洋大数据
/ k& `4 w1 R. l" r 美国国家海洋和大气管理局(NOAA)每天从卫星,雷达,船舶,天气模型和其他来源生成数10Tb的数据。虽然这些数据可供公众使用,但要下载和处理如此大的数据量可能会很困难。
0 M6 o+ a5 q J5 z# Q# _ ? 因此,NOAA的海量数据代表了一个巨大的未开发的商业机遇。NOAA大数据项目(BDP)将通过公私合作,向公众提供NOAA在商业云平台上的公开数据。这些伙伴关系将消除NOAA数据的公共使用障碍,避免了访问联邦数据服务伴随的相关成本和风险,并向公众提供云计算和综合信息服务。
8 s' y3 H2 V# w9 I1 B 大数据计划结合了三个强大资源:NOAA负责收集广泛高质量的环境数据和专业数据,合作伙伴提供基础设施和可扩展计算能力,以及国内众多的创新型公司利用前面二者,提供应用服务。这样一来合作机制就比较清晰了。
3 u0 _% [+ q3 ?3 N$ S: Z' H) a BDP当前与三家基础设施供应商合作(亚马逊、谷歌、微软),以扩大对NOAA数据资源的访问。这些合作的目的不仅是为纳税人免费提供完整和开放的数据访问,而且还通过整合使NOAA的数据更便于访问,而且还通过汇集必要的工具来促进创新。
7 O- S! u0 l% o: i: f/ e7 m3 g, N0 X  7 ^6 y2 f/ ~7 H9 l; e/ C
数据开放性 7 L: \% ~( g% W0 M7 p
通过与Amazon Web Services(AWS),Google Cloud和Microsoft宣布的新合作,NOAA的大量环境数据收集将比以往任何时候都更容易访问。根据这些新协议,商业云平台服务商将通过以指数方式扩展,快速、可靠、无成本地公开获取NOAA数据,从而为科学和经济发展创造无限的机会。 9 t1 ^1 H* e2 l s4 @
如何参与?
6 ^5 l- G2 L; a3 I 对于有兴趣加入NOAA大数据项目的公司、组织或个人来说,已经形成了几个“数据联盟”。每个数据联盟都由一个参与的基础设施服务机构作为基础,并代表一个围绕NOAA的一个或多个数据集构建的市场生态系统。因为各行各业对数据需求都很旺盛,数据联盟是一个非常灵活的概念,可能由代表不同经济部门的大公司组成,天气或保险行业以及专业的小型企业、增值经销商、企业家、研究人员和非营利组织等。数据联盟允许他们参与投资上游基础设施建设,允许市场力量参与NOAA公共数据资源的识别、提取和开发,并为感兴趣的各方提供了一种合作机制,以开发新的业务和研究机会,而且组成生态系统的成员可以自由地参与多个数据联盟。给予他们足够的自由度和参与机会与权限是实现共享的基础。 Y; J* i: J6 y, t- j; g

; D0 r T! N; W E" Y/ L% ` 2
; u( _8 u% }3 m* e6 |3 x 欧盟海洋大数据 , p" H3 @, y" H5 F3 E, ^, h
BigDataOcean项目的主要目的是提出和验证海上大数据方案,以造福于欧盟的公司、组织和科学家。这是通过一个多细分平台实现的,该平台在相互关联的、受信任的多语言系统中,同时结合了不同速度、多样性和数量的数据,从而为项目参与者和当地社区提供了具有高价值和准确性的大数据存储库。 ( u' u% L9 {3 f+ [
) Y* a% P1 k; U$ M+ w; d, a t
BigDataOcean项目致力于利用现代创新技术,利用它们彻底改变与海洋相关行业的工作模式。海事部门已经创新型地成功引入来自不同部门和语言的相关大数据流,以及多种不同格式(如结构化、非结构化、实时、批量)数据交付的技术交叉融合。这些创新将创造一个全新的价值链,这将带来巨大的经济、社会和环境影响。
* k' a0 u/ [2 M! i3 T! _ 基础设施方面,正在通过四项试点进行测试和改进,为BigDataOcean项目提供以TB为单位的海量数据。这将产生迄今为止最庞大的海洋数据库,提供以合作和数据为驱动的信息情报共享。此外,BigDataOcean将允许参与试验的人员上传私有和公共的数据资源,并通过公共和私有查询及图表将它们相互关联。BigDataOcean系统主体将兼容已建立的数据处理技术、传感器类型和通用操作系统。
0 z; j& |: a& {7 n 
$ |' A" [. w: f% o! K. K' j: q# t 目标
# S, n2 d! m( | 在技术层面上,BigDataOcean将提供迄今为止最大的包含海洋数据的数据库。此外,它将用语义增强型信息融合方法并将其链接到外部数据源,以增加其价值并使其易于多重利用。跨行业和多语言集成的难题将成为过去,而所需的预处理量将大大减少。
9 Y$ `$ B4 u; C* X9 Q D 在应用方面,BigDataOcean将通过使不同的利益相关方在协作但灵活的(即,在私有资源和公共资源之间)海洋大数据存储库中做出贡献,BigDataOcean将为他们提供工具(即应用程序和API),以帮助他们方便地获得开展业务所需的信息流,以做出基于数据驱动的决策;并启用新的业务模型,以确保组织运营的可持续性和透明度。
. I @! \, \; j0 `! l( v8 u 在科学研究方面,BigDataOcean将使科学家可以大胆假设、测试、分析,并促进数据模型的建立和提取。这些过程将通过存储库中数据以及其他来源数据而进一步简化。此外,为科学家提供存储库使他们可以专注于构建更好的模型和算法,而不必将精力放在数据获取和准确性上。这对研究数据相关性的学者来说很具有吸引力。 % c3 J! d- F z9 W
大数据海洋生态系统和应用案例
8 v2 ^' F9 r9 j( V$ V+ `0 U$ d& j' W 海洋面积几乎覆盖了地球面积的72%。然而,95%的海洋仍未被探索,这里面隐藏了许多神秘的自然科学现象。尽管其特性不明朗、机制不可预测,但海洋自古以来就是人类最宝贵的、可利用的“经济平台”之一,其应用跨越不同领域。事实上,全球贸易量的80%左右都是通过海运来完成。 {5 s; Y+ O2 Z( R' y9 x
BigDataOcean通过四个海洋大数据应用案例,来诠释这一主题:
% q z M# Z0 h- s7 [; y2 J 案例1 航运业。
, X0 h/ Y1 L# z# m8 s: W0 D 船舶工程师和航运公司不断试图减少运营成本,该案例通过船上众多的传感器数据主动地进行系统维护,同时分析环境条件和运营决策对船舶燃油消耗的影响。 ( z+ x" Y& j/ s) r

, |7 U% T$ D K, E 案例2 溢油应急
. o% D3 F( k8 P3 l" R 该案例基于POSEIDON溢油模型提供了一系列方案,为有效管理应对可能的溢油污染事件提供了重要信息。借助海洋大数据平台提供的各种跨部门海洋数据及扩展数据进行增强的预测模拟。
. Q0 M4 A# ?" W1 c: r9 \# \+ f' S9 z

7 V- z9 \. X+ S& n ]* e 案例3 海上安全和异常检测
# y: m. |0 P* K& m 海上活动对海洋生态系统的威胁,可能会影响全球安全、经济活动,造成环境不可逆地破坏。由于缺乏相关数据,对这类事件的影响及威胁的理解在过去一直很肤浅。随着BigDataOcean的出现,现在可以根据船舶的运动模式识别船舶的路线,从而采取积极的措施将海上威胁降到最低。
/ L+ e& f% j, m  6 V2 w# P. p) C0 N- X8 {
案例4 海洋能 : X* m/ z* Q6 S! B6 M
海洋能是下一种清洁能源,通过海洋大数据能够更加深入理解海洋开发和能源生产这两个主要领域之间的关系,同时可以明显地促进海洋领域的资源探索。云计算服务使用多个数值模型和数据源来评估不同海域的波浪能潜力,从而为波浪能解决方案的未来发展做出巨大贡献。 & y3 P4 [9 Z& b6 L% O
 ( n" V1 { }% F
海洋大数据生态网络的成型是一个长期的过程,它也会遵循互联网、全球导航网络的发展路径和规律,即前期政府主导、机构牵头、中期大公司参与建设、最后中小企业成为探索技术应用、服务机制的主力。从数据层面来说,不管是美国,欧洲,还是中国,研究机构都是数据获取的核心,IT公司参与基础设施的建设,主营海洋经济的大公司利用这些数据改进他们的运营决策。目前前两步相对好走一点,人们利用调查船、浮标、潜水器、遥感和海洋观测网络等多种形式,经过多年对海洋的探索,已经收集了海量的数据,国内一些IT公司也投入到了基础设施的建设中。但是如何将这些数据和下游海洋经营公司的业务相结合,一方面是需要数据提供方建立便捷、科学的共享途径和数据挖掘和表达方法;另一方面,也是更重要的,那就是用户自身利用大数据的能力建设。因为大多数用户都是传统行业,如何拓展上下游、行业之间的数据融合与利用是一项艰巨的挑战。
8 K+ c/ ?: v9 E% h0 { 相比起欧美来说,中国这些年在海洋数据获取方面取得了长足进步,目前已经跻身海洋监测的大国俱乐部。但是获取海洋数据的基础工具的研发能力仍然比较落后,甚至80%的传感器、潜水器需要进口。随着需要的数据量的爆炸性增加,对数据收集手段的要求指数级提高。同时,数据来源较为单一,像国外民间主导的 Seabed 2030 这样大规模的非盈利海洋研究项目几乎没有,同时,海洋数据准确说不仅包括自然数据。
( L4 g. q0 Q3 E( L8 J 在数据分析方面,国外采用了分布式服务器集群存储架构,而国内还基本属于地域集中服务器存储。由于海洋大数据的时空耦合及地理关联特性,导致传统 的数据挖掘算法无法有效地进行时空解耦与地理分解,使得挖掘算法成为海洋大数据科学全链条运转环节中亟 待改进与调整的重要屏障。在数据表达方面,虽然有些人认为实现了并跑,但从我本人一个旁观者,或者说用户体验来说,区别还是比较直观的。有点像天地图和谷歌地图、百度地图的使用感受。 5 s8 \3 T8 i% I# n1 ]/ w
在应用层面,不管是国外,还是国内,目前都还只能仅限于公对公的合作,即在政府行为撮合下,利用海洋大数据进行气候预测、环境检测、水质调查、科学研究等。事实上,海洋大数据只有和真正的海洋经济结合起来,才能发挥其最大的效力。要往这个方向上发展,是否在数据收集阶段就应该“请”用户参与进来?在基础设施建设和运营阶段,就应该“请”用户参与进来?他们能够准确地知道自己想要什么,如果说海洋领域各行各业的大公司由于无法实现短期效益而参与热情不高,那小的创新型公司也不失为好的选择,就如同前面提到的“数据联盟”。因为不论是互联网,还是全球导航系统所诞生的产业机遇,刚开始都是小公司挖掘出来的。在这一点上,我们是否还需要更高的开放性和透明度。 2 j9 Q& z* e% m
 & K4 q# {) ?8 g2 h- H
—END— + w: n& O3 e! R/ x* D) ~6 u
信息来源:深海智人
! o+ i4 q1 C2 Y/ L7 e$ @' }- C 转载请注明信息来源及海洋知圈编排
# P5 {# b- }2 D& \ 
, K/ k# X1 L4 c% J1 a0 y& Z" y
1 U, R3 J) m2 e5 x4 R4 b
5 g, R0 N+ T% @! ]' T( K* e3 c8 n, _& }
/ k: k# s; X* a @! `3 V' S5 S
|