. C# S+ N% V, w+ C 自19世纪末首次使用水银温度计来测量海水温度开始,过去百余年间,人类通过使用不同的测量仪器,收集了总计超过1600多万条海洋温度观测廓线。海量的观测数据已经广泛用于涉及海洋、海气、气候变化等相关研究和科学政策制定当中。然而,由于海洋现场观测数据的测量手段多样、数据错情类型繁多,导致了数据质量千差万别。如何高效、快速、自动化地识别错误数据并对其进行质量控制(Quality Control, QC)仍然是海洋数据科学中的一个难题。目前国际上仅有少数国家或国际数据中心拥有自己的海洋数据质控系统。
" W5 w+ n/ s, [
+ ?! O$ ~" P* g" }- P 2023年1月,海洋科学期刊《Deep-Sea Research Part I》发表了题为“A new automatic quality control system for ocean profile observations and impact on ocean warming estimate”论文,介绍了中科院大气所、中科院海洋所、自然资源部第二海洋研究所共同构建的基于气候态范围阈值的新一代海洋温度观测数据质量控制系统CODC-QC(CAS Oceanographic Data Center (CODC) Quality Control system; 中文名:中国科学院海洋科学数据中心质量控制系统)。该系统基于海洋温度观测数据中存在的不同错情,构建了14个检查子模块进行质量控制,为快速、高效地识别错误数据提供了新的解决方案。
/ U7 a6 D$ B) ~$ b3 R ' ~9 u) m% P# \0 Z
图1.世界海洋数据库(World Ocean database)中温度数据类型及数量
' G: D2 O3 ?' u1 B 随年份变化示意图(截至2021年12月) ' c& F1 I* A" e( a) ]5 p
CODC-QC的核心模块之一是局地温度气候态、局地温度梯度气候态阈值范围检测,团队成员自主构建了全球温度气候态阈值场、温度梯度气候态阈值场(1度空间分辨率;0-2000m;1940-2021年;月平均)。该气候态阈值场考虑了不同区域、不同深度、不同水团的各向异性(基于物理过程的方案)和地形依赖性(基于真实地形方案),参数阈值设置更加精准;并且使用99.5%和0.5%分位数,在不假设数据是何种分布形式的基础上定义异常值,克服了国际主要质控系统假设数据是正态分布的弊端。
5 x N$ W- p& B* E 此外,新系统的另一个优势在于:考虑了在海洋变暖的长期趋势背景下气候平均态阈值随时间变化的特征,克服了传统质控系统使用气候平均态定义异常值,可能会出现把一些能反映极端事件(例如海洋热浪)的潜在良好观测数据错误剔除的情况,进一步提高了质量控制系统的准确度和灵敏度。 ) T A! ~+ P3 I$ t; |2 K$ Y
为评估CODC-QC的性能,论文使用2个基准数据集进行测试,并与已有的几个国际主流质量控制系统进行对比,发现CODC-QC系统能牺牲尽可能少的正确数据去识别出最多的错误数据,显示出新一代自动化质控系统的优势(图2)。 / L) X; ^" Y# l3 n" y4 a9 A
; e" W q2 Y0 o: z; D
图2. CODC-QC质量控制系统效果对比。(左上)使用QuOTA基准数据集随机挑选的3000条未做任何质量控制的原始温度廓线;(右上)QuOTA数据集给出的经专家质控后的优良数据标记,此数据作为基准数据。(左下)使用德国汉堡大学质控系统(ICDC-QC)对这3000条数据进行质量控制之后标记为优良的数据;(右下)使用本论文提出的CODC-QC系统行质量控制之后标记为优良的数据。 * Q1 C1 ?) l6 B* E
基于系统对全球最大的海洋数据库(WOD18)进行质量控制,共质控1680.43万条温度观测廓线(1940-2021年)。统计结果显示,约有7.97%的观测点被标记为异常值。研究团队发现这些异常值的分布特征显著依赖于仪器类型:XBT(投弃式温度深度仪)、MBT(机械式温度深度仪)仪器中标记了最多的异常数据,而CTD(温-盐-深仪)和Argo浮标数据标记了最少的异常数据。
! z0 ]2 q4 {$ A- a 论文也将质量控制系统应用于全球海洋变暖速率监测的研究当中,从科学应用的角度进一步验证了新的质量控制系统的稳健性:研究发现质量控制系统性能的差异是海洋热含量准确估计的一个不可忽略的重要影响因子——相较于使用WOD提供的数据质量控制数据,使用CODC-QC提供的质量控制数据使得海洋上层2000米热含量在1991-2021年期间的变暖趋势提高约15%(图3)。
z4 H( W5 F( t. i
0 v$ j2 ~ y2 p7 n8 c! W 图3. 基于本论文研发的质量控制系统(CODC-QC)和基于美国NOAA/NCEI研发的世界海洋数据库质量控制系统(WOD-QC)的全球上层2000m海洋热含量异常时间序列(使用大气所IAP的热含量计算方案)。线性趋势用虚线表示。 ) i6 A9 K. {! O
新一代海洋现场观测数据质量控制系统的提出,将有助于加快推进我国智慧海洋工程和海洋信息化发展。为方便广大科研工作者直接使用经过CODC-QC质量控制后的海洋温度观测数据,论文同时公开发布了中国科学院海洋科学数据中心全球海洋科学数据库的温度现场观测数据(CODC-GOSD:CAS Oceanographic Data Center, Global Ocean Science Database),该数据库搜集了自1940年以来的大量全球海洋观测数据,用户可从大气所海洋和气候团队网站(http://www.ocean.iap.ac.cn/)、中国科学院海洋科学数据中心(https://www.casodc.com/data/)下载获得。同时,CODC-QC (v1.0)版本的质量控制系统源代码及使用说明已在开源代码共享平台Github上向全球公开共享(https://github.com/zqtzt/CODCQC),在遵循Apache-2.0的协议基础上欢迎大家使用和推广。
5 E$ X, @/ `# G3 K 论文第一作者是中科院大气物理研究所博士研究生谭哲韬,中科院大气物理研究所成里京研究员为论文通讯作者。合作作者包括中科院大气物理研究所V. Gouretski、朱江;中科院海洋研究所张斌、王彦俊、李富超;自然资源部第二海洋研究所刘增宏。该研究得到了中国科学院战略重点研究项目(XDB42040402)、自然资源部第二海洋研究所卫星海洋环境动力学国家重点实验室项目(QNHX2133)、国家自然科学基金(42122046、42076202)以及中国科学院海洋科学数据中心(CAS-WX2022SDC-XK11)的资助。 2 w( V& `6 F) `* E
【论文信息】 % B \5 `0 x* Y% p4 o
Tan Z, Cheng L*, Gouretski V, Zhang B, Wang Y, Li F, Liu Z, and Zhu J., 2023: A new automatic quality control system for ocean profile observations and impact on ocean warming estimate. Deep Sea Research Part I: Oceanographic Research Papers, 194, 103961,https://doi.org/10.1016/j.dsr.2022.103961
1 e0 O$ c9 n: |8 q) b3 d! d- \ 点击“阅读原文”查看文章 3 M- [4 E( R, Y! S1 Y6 q8 V/ a
+ E `, V$ Q. { ^2 j1 i: M% Z& ?& e' A8 U# _: n- K* E; v
|