数字水深模型(DBM)是在一定范围内描述水深信息的数据集,用于实现对水下地形地貌形态的数字化表达。数字水深模型是海洋基础地理信息数字成果的重要内容,是海洋经济建设、海洋灾害防治、海洋生态环境以及海洋科学研究等的基础地理信息资源。我国近海的水深测量均为不同时间采用不同的单波束和多波束设备进行,测量比例尺不尽相同,导致数据源密度不同,所以给近海DBM的建立造成较大的困扰。为了最大程度地利用这些数据,有必要寻求合适的方法把这些多源多时相的水深数据进行集成和融合建立DBM,以满足现阶段对DBM的需求。 多源多时相水深数据融合建立DBM是目前国际上水深模型建立研究的热点,国内外学者对多源多时相水深数据建立DBM有着诸多研究。目前国际上对多源数据建立DBM的插值方法主要采用连续曲率张力样条法、三角网法、克里金法以及最近邻法。GEBCO组织全球相关专家研制了全球海陆一体数字高程和水深模型,目前的版本为2020年发布的GEBCO_2020网格,是全球海洋工作者广泛采用的模型,它的建模方法也受到了较广泛的关注。该模型中陆地采用SRTM的数据,海洋部分采用全球公开的多波束、单波束测深数据,以及卫星反演的水深数据,用连续曲率张力样条法对数据进行插值,采用“移去-恢复”法进行模型融合,从而构建全球的数字高程-水深模型。 BÄCKSTRÖM基于单波束、多波束、海图数据和卫星反演数据建立了瑞士韦特恩湖的数字水深模型,认为连续曲率张力样条法是最合适的插值方法。Amante评估了不同插值技术构建DBM的精度,认为连续曲率张力样条法是最精确的插值技术。我国的研究者也采用张力样条插值算法建立DBM。可见,学者们对多源数据的DBM的建立采用最广泛的插值方法是连续曲率张力样条法,但是对建模的精度以及影响因素鲜少给出定量的客观评价和系统分析。目前多源水深数据建立DBM的研究主要集中在深海大洋,没有明确的精度要求,数据分辨率及精度和我国近海的情况不尽相同,它采用的方法是否一定适合我国近海需求,值得探讨。作为国家地理信息数字成果的近海浅水区DBM建立是我们关注的重点,其对分辨率和精度要求有明确的规定,所以建模精度评价是不能缺少的,而对建模影响因素的分析对提高建模精度有很大的意义。 多源水深数据最大的特点是水深数据密度不均匀。为提高DBM的建模精度,建立DBM需要分为两步:首先,采用合适的插值方法建立初步的不同分辨率的DBM;然后,采用合适的模型融合方法建立最终的DBM。在数据测量精度一定的情况下,插值方法的选择对DBM的建立尤为重要。为探讨浅海区多源水深数据建立DBM的问题,本文以渤海海区的多波束、单波束数据为例,选取目前常用的克里金(Kriging)法、连续曲率张力样条插值法和狄洛尼(Delaunay)三角网三种插值方法分别建立多分辨率的DBM,针对数据密度不同采用叠加多分辨率网格模型融合方法建立最终的DBM,并评价不同插值方法在不同条件下建模的精度,分析影响DBM不确定性因素,从而给出适合我国近海海区多源水深数据建立DBM的合理化技术建议。 & j- D) z) R+ G$ T6 K5 E
一、数字水深模型构建 & o/ R& u/ I1 O0 D: k
⒈插值方法⑴克里金(Kriging)法 Kriging数学模型是基于地统计学的网格插值方法,在许多领域有广泛应用。这种方法与传统插值方法的不同之处在于估计元观测样本数值时,不仅考虑待插值点与邻近有观测数据点的空间位置,还考虑了已知点之间的位置关系,而且利用已有观测值空间分布的结构特点,使其估计比传统方法更精确,更符合实际。 Kriging方法用协方差函数和变异函数来确定高程变量随空间距离变化的规律,在有限区域内对区域化变量进行无偏最优估计,使内插函数处于最优状态。
(1)( d& n L4 ^" B
式中:z0为待插值点;zi为第i个采样点的实测值;wi为第i个采样点的权重系数,取决于测量点、预测位置的距离和预测位置周围的测量值之间空间关系的拟合模型。本文采用线性模型为变异函数拟合模型。克里金法有较大的计算要求,需要复杂的编程,在处理较大数据量时效率相对较低。该方法被广泛用于数字地形模型的建立,并被认为是精度较高的模型建立方法。 ⑵连续曲率张力样条插值法 Smith和Wesse通过在最小曲率网格算法中引进张力参数,将最小曲率格网插值算法概括为一个更具普遍适用性的算法,即连续曲率张力样条法,该方法可以消除最小曲率法存在较大的波动和无关变形点缺点: 4 S! a; n( x; A+ u! j
式中:TI为张力参数,下标I表示拟合区域内部,TI可在[0,1)区间取值。当TI≒0时,式(2)为最小曲率格网化方程。边界条件为:& g2 W |1 K; T; i, R
⑶
- z: S; S1 h6 }" `) ]) s9 P- }& w 式中:TB为边界张力参数,在[0,1)区间取值。; I8 ]* k/ d4 q8 a$ s' U5 c
这种算法最主要的是确定张力参数,参数越大,格网化结果越平滑。该算法用来计算了全球广泛使用的DBM,例如GEBCO发布的GEBCO_2019网格模型以及南北极的网格模型。Akkala等认为最适合张力样条插值的是不规则间隔的数据。根据众多学者的经验[5-9,20],张力参数为0.25~0.45,格网化结果既能反映局部的变化,又比较平滑,精度较高,本次的张力参数取0.35。 ⑵狄洛尼三角网 狄洛尼三角网法将三角不规则网中的已知数据点连接起来。“空外接圆法则”是狄洛尼三角网生成原理,这个法则指如果三角网中每个三角形的外接圆只包含建立三角网的3个点,不包含点集中的任何其他点,则被认为是狄洛尼三角网。狄洛尼三角网是目前受广泛应用的三角网构网形式,它结构良好、数据结构简单、存储效率高,适应各种分布密度的数据。该方法是建立数字水深模型的常用插值方法,在许多研究中取得了较好的结果。 ⒉模型融合方法 无论采用哪种插值方法构建模型,都会出现相同的问题,即由于数据密度的不一致,若只采用统一分辨率的网格大小会导致:网格过大,体现不出高密度数据表达细节的优势;网格过小,低密度数据区内插会产生空白或者突变的伪值。为解决这个矛盾,最好的办法是设计一个可变分辨率网格的模型,根据数据密度调整网格大小,使网格的大小和数据密度匹配,但是目前大多数的地形分析和可视化软件不支持可变分辨率网格模型。所以,需要将不同分辨率的模型进行融合,形成一种恒定分辨率的模型。多数文献选择采用“移去-恢复”法对模型进行融合来解决上述问题,取得了较好的效果。“移去-恢复”法首先根据数据密度分别建立低分辨率和高分辨率的两种网格模型,低分辨率网格保证稀疏数据有正确的内插值且填充空白,但是移去了地形细节,高分辨率的网格保证高密度数据的细节,但是在稀疏区会出现空白;然后将低分辨率的网格重采样内插成和高分辨率网格分辨率一致的网格作为基础网格,将基础网格和高分辨率网格比较得出二者差值网格,用基础网格加上差值网格得到最终的恢复细节的网格。这种方法针对数据密度只分为2种类型,如果研究区的数据密度有多种,则可以采用叠加融合方法。本文采用一种叠加多分辨率网格的方法建立恒定网格大小的模型,该方法是在“移去-恢复”法的基础上发展而来。 叠加多分辨率网格方法是根据研究区数据密度分成多个不同分辨率的网格,将不同分辨率网格模型进行叠加融合,再次内插生成高分辨率的网格。具体方法:①分别利用源数据生成不同分辨率的模型,在稀疏数据源处,高分辨率网格中会存在大量的空值,随着网格的增大,空值会逐渐减少,直到填满源数据包围的所有空隙;②把这些网格叠加成多分辨率的网格,最后插值生成高分辨率的网格模型。在叠加的过程中,要求保留高分辨率的数据,在没有高分辨率值的空值节点,采用低一级分辨率的网格节点值,具体流程见图1。 5 [' ]& Z& b$ g6 t
图1 叠加融合多分辨率网格流程
% K7 e9 P K6 C) o5 ?' I7 b 这种方法可以针对多源不均匀数据获得更高分辨率网格模型,网格分辨率可以由具有最高源数据密度的区域确定,最大程度的保留了高密度数据的细节,又尽可能减少了稀疏数据源区域内插值伪影的产生。因为当稀疏的数据直接生成高分辨率的模型时,一些标准的插值算法无法产生可靠的结果。如果先根据数据稀疏程度生成与之匹配的网格大小的模型,再采样,出现假数据的机率会降低。 : T) z9 c; g7 p1 ~7 }6 U" g2 K
二、研究区和数据 % Z$ f& g: o2 {0 y6 {# P% {: c: N* t
$ x# R; Q e. F) e' d6 _渤海是我国的内海,位于117°35'~121°10'E、37°07'~41°00'N,南北长约480km,东西宽约300km。渤海被辽宁、河北、天津和山东包围,只有东南向通过渤海海峡与黄海相接。渤海水浅,平均水深18m,地形平缓。研究区位于渤海中西部,具体位置见图2。研究区从渤海湾到渤中浅滩,水深0~39m,既有复杂的沙脊沟槽地形、人工地形,也有平缓的平原地形,其典型地形特征为研究海底水深模型构建提供了依据。
5 ?* Y% q6 z( \' x- D, I2 I! h; j* ?' V9 w3 b
图2 研究区位置和数据源6 N* A( D& ~! ?/ i
本研究的数据来源主要为2008—2010年我国近海海洋综合调查与评价专项实测的部分多波束和单波束数据,数据分布情况见图2。专项调查数据精度一致,满足相关规范要求,深度基准为理论深度基准面。 研究区的水深数据密度极不均匀,多波束数据分辨率10~50m,单波束数据分辨率500~5000m,使用这些数据构建成一个整体数字水深模型,需要适合的模型插值方法和融合方法。 - i u' ^) a& v8 H) W$ W
三、结果与分析
9 J. c# W; Y* O( g! S* H- n. Z3 D2 \; [0 v! `3 U
采用不同的插值方法分别对单波束、多波束以及单波束和多波束混合数据进行插值并融合模拟计算,计算不同情况下的插值精度,分析数据密度对插值精度的影响,选择典型地形区域计算插值误差,根据插值误差的分布特征,分析地形对DBM的影响,从而进一步分析插值方法的优劣。⒈结果 采用克里金法建立的研究区DBM形成的海底地势见图3,图3展示了研究区的地形起伏形态。研究区西部为渤海湾曹妃甸近岸复杂地形区,水深变化剧烈,海底冲刷沟槽和潮流沙坝相间分布,曹妃甸外的海底深槽水深达39m,槽底呈平缓的波状起伏形态。研究区中东部为渤海中央盆地,地形平坦开阔,坡度平缓,其东部为渤中浅滩,滩顶平缓。 9 N6 x0 g5 @+ m ^% ]( R
图3 研究区海底地势
. X* U! U+ v0 i& t# O0 C/ q ⒉精度评价 ⑴评价方法 DBM的误差主要有测量误差和插值误差,本文的精度评价主要对插值误差结果进行评价,不涉及测量误差。 精度评价方法采用交叉验证法。交叉验证法是抽取一定数量的原始深度值作为验证数据,采用保留的数据作为训练数据来进行插值计算。将计算的深度和验证的原始深度数据进行比对计算深度差异。分别从单波束、多波束源数据以及单波束和多波束混合数据随机分离20%的数据作为验证数据,采用剩下的80%的数据进行插值建模,然后计算训练数据和验证数据之间的误差。 ⑵评价指标 本研究的评价指标采用均方根误差(RMSE),误差计算公式如下: ' j* R( l' @3 c! g5 n( R. m
式中:σ为研究区模型计算的RMSE;di为模型计算值和原始值的深度差;Z(i)m为同一位置模型内插计算的水深值;Z(i)o为抽取的原始水深数据值。表1为不同数据源3种插值方法计算的插值误差。7 r7 x8 Z# G2 u2 E5 e9 y& [
表1 不同插值方法和数据源的均方根误差(m)
D' O7 D! O& U( W+ n⒊讨论分析) F7 z; | p0 G, E
⑴数据密度对DBM的影响 由表1可知,多波束数据的计算精度最高,混合数据次之,单波束数据的插值计算精度最低。多波束数据区域虽然地形复杂,但是由于数据密度远高于单波束数据,插值精度明显高于单波束数据区域。由此可见,插值精度与原始数据密度有关,数据密度对DBM的精度起着重要的作用,数据密度密,插值精度高。 ⑵地形对DBM的影响 有关文献研究了曲率大小对插值精度的影响,但是只采用了部分剖面的曲率来分析,本研究采用地形变异性来研究地形对插值精度的影响,采用区域数据来分析,让更多的数据参与分析,更具客观性和代表性。 地形变异性被认为是DBM不确定性的主要来源,为了探讨其对DBM精度的影响,本文选取研究区4个地形特征不同的区域(图3),并计算这些区域的水深变异系数(CV)来衡量地形变异性。水深变异系数对海底地形起伏变化情况有较好的反映,系数越大,表明该区域的地形起伏越大,地形越复杂。水深变异系数(CV)公式:
⑸ 式中:zi为区域内点i的水深值;z为区域水深平均值;n为区域内总的水深点数。 计算4个试验区域DBM建立的均方根误差,探讨变异系数和均方根误差的关系即可知道地形变异性对DBM建立精度的影响。表2为不同区域(图3)的CV值和插值均方根误差结果,区域1和区域2为多波束区域,区域3和区域4为单波束区域。表2的均方根误差值包含了地形和数据密度的影响,故把数据密度不同的区域分开比较,区域1和区域2进行比较,区域3和区域4比较,以尽量消除数据密度带来的误差影响。区域1的CV值大于区域2,区域1的地形复杂程度要高于区域2,相应的,区域1插值误差大于区域2。 表2 不同区域的CV值和均方根误差比较 T& \! m# d* D- `
区域3的CV值大于区域4,表明区域3的地形起伏较大,区域4的插值中误差远远小于区域3,说明在数据稀疏的情况下,地形对插值精度的影响相当大。从以上分析得知,CV对DBM的误差有正向影响,不论采用何种插值方法,地形变异越大,其总体插值误差越大,水深插值的不确定性增加。
: g5 Y* p: _, A! z' n) X# L ⑶插值方法对DBM的影响 插值方法是影响DBM精度的重要因素。由表1可知,不论哪种数据源密度,这3种方法中,克里金法精度最高。数据源为混合的不均匀数据和稀疏数据时,连续曲率张力样条法比三角网法精度稍高,数据源为密集的多波束数据,三角网法比连续曲率张力样条法精度稍高。由表2可知,在平坦地形区,3种插值方法的精度相当,克里金法无论是在地形复杂区还是平坦区,它的精度都是最高的,而在高密度的多波束复杂地形区,三角网法比张力样条法更具优势,在稀疏的单波束复杂地形区,张力样条法表现优于三角网法。表1和表2的统计结果一致表明:克里金法精度最高,尤其在数据稀疏且地形复杂区,克里金法在插值精度方面具有明显的优势,这个结果也体现了克里金算法相对于其他算法的优势,它充分考虑空间变量相关性,更能客观地反映自然地形规律。连续曲率张力样条法相对于三角网法更适合稀疏的数据,体现了连续曲率张力样条法在尊重源数据基础上,能生成圆滑表面的特点,三角网法适合稠密数据,这也体现了三角网法尊重源数据的特点。 对于数据量较大的大范围的多源数据的插值建模,在选择插值方法时,计算时间有时也在考虑之列。比较相同条件下的相对计算时间可以为选择更有效的插值方法提供参考,表3是不同数据密度不同插值方法计算100m分辨率的DBM的时间,为了更有效地统计计算时间,这个DBM计算没有采用模型融合方法,直接采用数据进行插值计算。克里金法在精度上具有优势,但是在计算效率上比连续曲率张力样条法和三角网法低。 表3 不同插值方法计算时间(s) + G! h( x2 b# T
* g4 ^/ L* b, G0 r4 F5 S E
四、结论
5 D0 K* Y4 d+ @0 ~' M# Y* k. l: u0 x& n8 |: o% K
本文采用克里金法、连续曲率张力样条法和狄洛尼三角网法三种插值方法建立水深数字模型,并对模型进行融合,通过分析DBM的精度以及影响DBM建立的因素,认为源数据密度、地形特征和插值方法都对DBM精度有显著影响,主要结论如下:①DBM的建立精度和数据密度直接相关,数据密度密,插值精度高。地形对DBM建立精度有影响,地形复杂区,插值精度低。这是多源数据建立DBM的规律性结论。建立地形复杂度、密度和插值误差的关系是需要进一步研究的方向,可以帮助更好地选择插值方法。 ②本文选用的3种插值方法各有优势,适用不同的数据情况,所得结果体现了各插值方法的特点。由于多源水深数据的复杂性,建立DBM的插值方法的选择要考虑诸多因素,如果DBM精度是考虑的首要因素,克里金法插值精度最高,该方法是较好的选择。虽然计算机能力强大,如果计算范围过大,效率也可在考虑范围之内,例如全球范围内的多源数据,数据极其不均匀,综合考虑效率和精度,数据稀疏不均匀时,连续曲率张力样条法是较好的选择,这也是全球数字水深模型建立最终选择连续曲率张力样条法的原因;如果数据稠密均匀且地形复杂,狄洛尼三角网法是合适的选择,当数据密度满足分辨率要求时,例如全覆盖的多波束数据,3种插值方法的计算精度差异不大,建议选择简单高效的插值方法。 ③本文针对多源水深数据特点,采用叠加多分辨率网格的融合方法解决了模型恒定网格大小和多种数据密度的矛盾,对多分辨率模型融合具有借鉴意义。 |