点击上方“溪流之海洋人生”即可订阅哦 一、引言
1 q1 x: ^% J9 r% j+ X 声学多普勒海流剖面仪ADCP利用多普勒频移效应测量多个水层的海水流速、流向,自20世纪70年代出现以来得到了广泛的应用。作为一种高精度的测流仪,目前国内外几种典型ADCP的流速观测精度均能达测量值的1%±0.01m/s,但船载ADCP在使用过程中受本身的结构、安装工艺、使用环境以及引入导航数据等影响,测量结果存在较多误差,因此必须对原始数据进行合理的质量控制,才能消除测量误差获得真实的流场信息。
( z9 z( I; ^' x* P2 J 本图来自网络
8 `1 U$ N& [) H6 y; n 自20世纪末以来,国内外学者对船载ADCP数据质量控制方法开展了研究,但由于ADCP型号、安装方法、采集软件、罗经和GPS精度以及调查海区等不同因素,造成原始数据格式及误差来源各有差异,国内外尚无统一的针对船载ADCP资料质量控制标准。当前广泛使用的几类ADCP资料处理软件,如夏威夷大学基于Linux研制的Codas系统、法国海洋开发研究院(Ifremer)基于MATLAB语言开发的Cascade7.2系统,以及国内某研究所基于Windows研发的海洋调查资料综合处理系统ADCP模块,主要面对的仪器对象是TRDI公司生产的、采用高分辨率编码和相干测量方式的ADCP,处理对象为长平均(.LTA)或短平均(.STA)文件,并均已形成较为成熟的处理流程和参数方案。 4 f' ?3 T# \3 J+ w7 u2 u# e# ?
平均数据文件是ADCP通过对一定时间段内的所有观测数据进行平均获得的,虽然通过这种平均方式可以降低随机误差的影响,但由于其在平均前对单ping数据筛选以回波质量判断为主,使得一些异常值影响了平均结果,特别是在调查船转向时导致平均数据质量较差。本文利用上述TRDI公司产ADCP采集的海流数据,提出了一种在单ping(.ENX)文件中进行流速数据质量控制的思路,并通过对比几类常用的统计方法和进行显著性检验,确定了针对该类型文件中流速数据质量控制的最佳方案。 9 y1 S0 B4 u! P3 H9 D. Y. |
二、数据与方法 4 L6 Y3 [" K5 I7 \. ~- j+ @7 a
大型调查船通常选择TRDI公司生产的300K和38KADCP作为测流组合,在宽带模式下对800m以内的海流进行精细化观测。以上两型ADCP在采集资料的过程中,先将单ping数据投影在换能器坐标系上,再根据换能器安装角度转换到船体所在的大地坐标系上,形成后缀名为.ENX的单ping数据文件。同时,配套采集软件VmDas会根据用户选择的时长,生成长平均或短平均文件,即传统质量控制过程中资料处理的对象。
; l* w! I" {' {6 d8 B/ a 综合考虑样本数据的代表性,本文选择了一组存在明显流速跳点和航迹上船只多次转向的数据作为演示样本,在平均前计算单ping文件中的绝对流速数据并进行质量控制,通过比较不同的异常值判断方法和进行对应的显著性检验,确定最佳的质控方案。
, m4 Q# p; f5 Y- h9 f3 [: @$ t- v ⒈VmDas质量控制方法简介
% g7 O4 [$ i5 D* G+ N* d 为确保数据质量,采集软件VmDas中设计有DataScreening项,对单ping相对流速数据进行质量控制,不满足控制标准的数据垂直流速误差项会标记为-32.769,在生成平均数据文件时过滤掉,即获得平均数据良好率。 6 N& E! u- { Z( ]: {0 o4 Q
该项执行的数据检查标准基本为回波的声学指标,主要包括:①回波强度;②单ping良好率;③相关性;④流速误差;⑤垂直流速;⑥Fish算法。由于该项检查对象为相对流速,在计算绝对流速过程中,无法剔除船速信息包含误差,也无法通过流速剪切剔除不合理流速,因此导致生成的平均数据后处理难度较大,且效率较低。 . M3 M6 y1 }0 O6 D6 X
⒉绝对流速提取 ! s: l' i! A9 N! I/ p1 `
TRDI公司产ADCP配套采集软件VmDas,允许接入服从NMEA-0183协议的GGA(GPS定位信息)和VTG(地面速度信息)两种格式GPS信息以提供船位和船速,同时底跟踪功能提供底跟踪船速。.ENX文件中同时包含了以上3种船速,其中GGA信息使用了GPS的单机定位方式,利用两点之间位置和时间差计算船速,结合前人研究与图1(b)可知,该方式所测船速存在明显的过失误差,但VmDas利用该方式计算船速;VTG信息应用了多普勒频移和载波相位差分原理,有效避免了多路径效应,船速信息较为精确;底跟踪船速获取方式与流速相同,使用该方式利于消除共模误差,但水深超过底跟踪深度的海域无法测得船速,且由图1可见,底跟踪船速包含随机误差较大。 4 e8 c, _. f& u/ a; ^
图1 ENX数据提供的三类船速东分量对比示意图
$ I% G& x9 A: b 根据以上三类船速的特点,本文直接使用数据质量较好的VTG船速计算绝对流速,主要基于以下原因:底跟踪船速虽有利于消除共模误差,但常用的38KADCP最大底跟踪深度也无法超过2000m,而进行表层、次表层海流精细化测量的75K、150K及300KADCP底跟踪深度伴随频率增大进一步减小,远无法满足远海测量的需求;采用传统的底跟踪+GPS模式虽然保障了浅水区的测量精度,但由于底跟踪随机误差较大,实际上导致了数据误差来源在整个序列上的不连续。因此,采用质量较好的VTG船速,可以确保了整个数据序列上精度和误差来源的统一性,继而对整个流速文件采用相同的方法消除误差,提高处理效率和整体的数据质量。 8 ~/ v6 b& z6 o8 y2 O: U5 N% D
在ADCP资料的后处理中,常将3~10层数据作为流速稳定层,对流速剖面进行参考层平滑。图2为原始数据提取出的第6层绝对流速,提取过程剔出了前节中所述由VmDas软件标记的不合理数据。容易发现,除随机误差外,经过VmDas软件质控后的单ping原始数据中依旧还包含大量的过失误差,其中大部分同时存在于流速东、北分量,但也有部分如序列号在7000附近的东分量过失误差单独存在,表明引起数据质量问题的误差来源并非单一,如何选取合理方法有效剔除过失误差是决定性环节。 * T0 E- F# |: b- z- i
图2 样本原始数据单ping绝对流速示意图
4 ]' c% c2 C4 j% d! p8 h ⒊异常值判别方法 9 t, _+ C+ ~, i
如图2所示,虽然数据中包含较多的随机误差,可以使用传统的低通滤波器进行剔除,但由于数据中存在短时间内流速变化较大和不连续引起的截断信号,在使用滤波器的过程中会导致在频谱分解时出现吉布斯现象,即便对数据进行加窗,由于方法的非自适应性,也同样会导致“频谱泄露”,严重影响这一区域的原数据质量。因此,本文选取了以下4种常用的统计学方法进行异常值判别。
1 a: s$ l3 c; |3 Z$ z ⑴莱茵达准则判别 + t6 \1 i1 [" j4 H/ ~( k6 B
考虑到较短时间和较小空间内海流的东、北流速分量变化较小,误差一般服从正态分布,异常值可以定义一组观测值中与平均值偏差超过3倍标准差的值。可以采取如下方法:选取待判别单ping数据前后各n/2个数据,n为偶数,移动窗口内采样数为n+1,采集样本为xi,i=1,2,…,n+1,样本残差为vi,则有:
5 Z& G4 ^ j7 I( W& F/ C I( E 如当前ping数据超出x-±3S范围,我们可将当前ping数据剔除,标准差的倍数也可以根据实际情况修改。 3 o; v: f1 X- ~8 n x X! a, y( z8 b
⑵Chauvenet准则判别
* W J( W1 U' n4 }: Q, P: x' D 应用Chauvenet准则基于测点周边数据进行检测。使用测点周边数据检测,存在样本量大小与数据文件两端无法检测数据点数量的矛盾,当使用计算样本量大时,文件两端无法检测的数据点随之增多,因此样本量不宜过多,但根据中心极限定理和大数定理,此时不适用于莱茵达准则。Chauvenet准则适用于样本量较少的情况,该思想认为在n次重复中,若出现一个概率等于或小于1/2n的残差,则可认定其为过失误差。
2 G' v% l/ M& t. Y- s n: P 对于流速东、北分量的样本残差vi,根据高斯误差定理,其绝对值不大于v(v>0)的概率为:
9 Z$ u; B8 i3 F/ \# C 其中,z=v/σ(5)
( H( K. n" _& g6 y% U" Z v为过失误差的界限值。因此,可得小概率事件的概率为: 1 @ d& O: K& s/ \* c
根据Chauvenet准则,假定概率界限值为1/2n,所以有:
' c% T y" m1 D7 M7 c+ L 1-2ψ(z)=1/2n(7)
3 u( Z3 c3 ]$ o+ Y* d" b, H 具体做法是根据n值结合(7)式计算ψ(z),再根据(4)式查找标准正态分布表得到z值,最后根据(5)式计算v值,若vi>v,则认定该点数据为问题数据。经验表明,Chauvenet准则在n值过小时效果较差,一般应大于15个。 4 h1 o; X8 @/ A8 i7 s) O6 C
⑶箱线图法
' E1 g! k8 r% D9 G 箱线图提供了识别异常值的一个标准:异常值通常被定义为小于QL-1.5IQR或大于QU+1.5IQR的值。QL称为下四分位数,表示全部观测值中有四分之一的数据值比它小;QU称为上四分位数,表示全部观察值中有四分之一的数据取值比它大;IQR称为四分位间距,为QU与QL的差,期间包含全部观察值的一半。箱型图依据实际数据绘制,没有对数据作任何限制性要求(如服从某种特定的分布形式),另一方面多25%的数据可以变得任意远而不会影响四分位数大小,所以异常值本身无法对这个标准施加影响。 & y$ P7 N9 a3 @0 B# N; s
⑷中位数残差法
8 G8 i1 F. A0 o9 Q9 ^6 f1 J 该方法由法国海洋开发研究院提出并应用于该机构自研ADCP资料处理软件Cascade7.2。首先将每个绝对流速与相同深度的相邻速度进行比较,计算数据点xi与两侧Nb个相邻集合之间的绝对流速的中位数xmi。Nb数量大小由用户设置,默认为30。
; J9 k5 ] A% T% i 在这些相同的数据点上计算相对中位数xmi的绝对平均残差(ECi)
1 {1 o7 c) G$ ]; Q0 ]2 r 各层流速的流速残差应当小于Nb2×ECi,Nb2由用户自行设定,默认为2.7,若不符合该条件,则认定流速水平剪切过大。实际操作时,同样分别对东、北分量进行检测。 1 Q% p1 Y$ `4 g: {& q9 P
三、异常值判别结果分析
8 K0 J+ S, i1 I6 f+ A9 u0 { 在判别前,需要确定每种方法的判别窗口长度,除中位数残差法中已经明确了Nb值的大小,针对其他3种方法,读取样本数据长平均文件,获得单个数据点的平均集成ping数为47,由于利用窗口判断异常值本质上为低通滤波,因此采用该数值作为窗口长度,以保证后期对数据进行平均时能够最大限度消除该周期范围内的误差。
: z& {& ^' B5 G: r( M4 D U O ⒈判别效果对比
5 Z3 }1 B0 V9 ~$ {+ |& J4 B# s1 y 对两段样本数据进行异常值判别,对窗口内数据量不满足判别要求的,保留原始数据值,并选择具有代表性的部分数据序列成图。如图3所示,灰色折线图为原始数据,其他折线图为各类方法判定阈值,散点为判别后结果,详见图例。根据样本的东、北分量的判别结果,莱茵达准则和Chauvenet准则判别方法受较大的过失误差影响较大,虽然后者较前者判断标准更加严格,但由于计算方法自身缺陷,导致存在较大过失误差窗口内其他数据点的判别阈值同步增大,若该类窗口中存在较小的过失误差,则难以通过以上两种方法判别。 8 f5 H' r" w% {& l
图3 样本异常值判别结果示意图 2 W8 m0 j; A) [) a! w8 Y
箱线图方法和中位数残差法判别阈值不存在上述问题,且后者判别标准更为严格。如图3所示,当部分数值在短时间内波动较大但处于与周边数据相近范围内时,存在被中位数残差法误判为误差的可能;从判别阈值的走势来看,当数据在合理区间内波动较大时,箱线图法阈值会受其影响,相较之下中位数残差法更加贴近原始数据的变化趋势。 3 |# L/ o4 N* ]2 N- q8 v% w# U
⒉显著性检验结果对比
5 B) q5 ?& ~% a( y# _ 为进一步定量地衡量4种方法的判别效果,本文统计了每种方法判别的异常值个数,并对单个异常值进行显著性F检验,F检验的原理如下:针对异常值x*与其检测窗口内的数据值,i=1,2,…,n,以及均值x-,有: + W* |" w- @. a7 X- R
公式(10)主要利用异常值减去均值残差的平方,与检测窗口内的2阶距平方和进行比较,判断异常值的偏移程度。F值越大,表明异常值显著性越大,判别结果越准确。统计结果表明,当F值大于5时,异常值的判别结果可信。 ) Q) s7 B: R# `) K& \6 ~" g
从表1的统计结果来看,莱茵达准则在数据异常值判别最为保守,中位数残差法在F检验上表现最差。Chauvenet准则方法与箱线图法判别个数以及显著性检验结果较为相近。后者虽F均值略小,但是判别异常值数量较多。
: U: y! V/ S! {8 {) F 表1 F检验结果 I- N5 ?3 _& ?. o
综上,莱茵达准则和Chauvenet准则存在异常值的窗口长度范围内判别条件放松的缺陷,而箱线图法判别异常值数量高于中位数残差法的同时,异常值显著性也高于后者,表明箱线图方法效果最好。 5 `* Y( v' v2 E* |, _" W
⒊平均结果对比
2 ]) Q9 z h5 X- |4 K5 o! K- t 从判别效果和显著性检验结果来看,箱线图法的效果要优于其他3类方法,因此选取该方法处理后的单ping数据,与该原始数据对应的、经过VmDas软件中DataScreening模块默认阈值处理后生成的长平均数据进行比较。
, m) w$ `9 j7 `8 M+ A: L 首先利用后处理软件WinADCP提取长平均文件中绝对流速,处理方式为推荐的底跟踪+GPS模式,并根据每组数据生成的时间范围,对单ping数据进行平均,获得包含相同单ping的两份平均数据。如图4所示,两者在整体的流速分布上较为一致,流速变化趋势相同。在数据序列278附近的20层以下数据,以及290~300范围内40层以下数据,应用箱线图方法处理后的单ping数据平均结果相较LTA数据,平滑性更好,且无明显的流速异常值。
9 m0 |2 E$ x. M' e 图4 原始LTA数据与处理后单ping数据平均结果对比示意图 $ B* z/ b1 F% {, b) ~, J
将流速分量标准差作为衡量数据离散程度的指标,标准差越大,代表数据离散程度越高,数据的连续性与平滑性就越差。见图5。
+ H& n6 w* A- }- r' p 图5 两类流速数据标准差对比示意图 & E8 k1 l+ J2 \0 L3 O6 [) W
从对比结果(图5)来看,箱线图法处理后的单ping平均数据在与LTA数据走势基本一致,且平均标准差数值略小。综上判断,经箱线图法处理后的单ping平均数据相较VmDas软件生成的平均数据质量更好。 7 F/ i8 Y. Q, j: U; u8 X
四、结束语
6 j' A# {. ]& H" S 针对ADCP资料的后处理问题,本文提出了直接对单ping数据进行流速质量控制的思路,选取具有代表性的样本数据,通过比较不同方法的处理效果,以及对比VmDas软件生成的平均数据,主要得到以下结论: , F" M5 s7 U! J9 W7 L" I
⑴由于VmDas软件DataScreening项针对单ping数据的质量控制以声学指标为主,导致平均文件中还包含较多过失误差。在平均前利用VTG船速计算绝对流速并剔除异常值,可提高平均流速数据质量。 , n6 @, d1 J6 s q2 @) k
⑵对比不同异常值判别方法对单ping数据的数据处理效果,结果表明莱茵达准则与Chauvenet准则容易导致过失误差两侧窗口长度范围内判别阈值整体增大,导致较大过失误差窗口内的较小过失误差无法被识别,箱线图法和中位数残差法不存在该缺陷。 7 t: d# W4 N5 z" L
⑶异常值判别数量统计结果和显著性检验表明:箱线图方法判别流速分量的异常值数量和显著性均高于中位数残差法,在四类判别方法中效果最好。 4 A1 E+ d) a1 `2 R( k5 R# N1 I
⑷对箱线图法判别后单ping平均后数据与VmDas软件质控后生成平均数据进行比对,可视化结果和标准差计算结果显示前者在数据平滑性和数据质量上高于后者。 / l/ P; y& H0 ?8 ^/ N; N# I8 V
1
6 f; w$ H& w; K! I END
2 W$ G" D. O0 Z% R0 Z6 ]) T* d/ h 1 . g% b4 ^% |8 g( u
【作者简介】文/姜德良 陈献 张胜军 刘刚,均来自91937部队。第一作者姜德良,1992年出生,男,山东德州人,工程师,硕士,主要从事军事海洋环境调查研究。文章来自《海洋测绘》(2023年第1期),用于学习与交流,参考文献略,版权归作者及出版社共同拥有,本文编发已取得作者授权。
: }: b4 N, k5 O {% C. x0 _ 相关阅读推荐 水文论坛▏走航ADCP观测资料质量控制方法及应用海洋技术▏Ifremer船载ADCP资料处理系统Cascade7.2介绍与基本应用海洋技术▏五波束ADCP测波浪的现场比测实验海洋讲坛▏芦山:国产化ADCP研究及应用进展海洋论坛▏国产走航式声学海流剖面仪的应用分析微课堂▏邓锴:国产声学多普勒流速剖面仪(ADCP) 研发历程及现状
9 Z+ }8 \/ o% b6 u+ v4 a" j 公众号
! z9 K4 U" T9 R2 @+ p, ? 溪流之海洋人生
2 U5 `2 R% K" g% b: B, l 微信号▏xiliu92899
3 B1 t* L' V. n0 S R: ~ 用专业精神创造价值
* m3 |* b7 ^0 R 用人文关怀引发共鸣 您的关注就是我们前行的动力
. o/ K% n3 @" S 投稿邮箱▏191291624@qq.com
, Y; k( R( Y9 w h6 m/ J3 c, ?7 }" |" |5 s; e
, o- |- Z2 Z; F, A+ i4 b/ k- k9 {: `0 V
+ `6 b1 Q o7 z' E |