点击上方“溪流之海洋人生”即可订阅哦海底摄像是一种最为直观的海洋底层环境调查手段,应用领域十分广泛。将摄像机和照相机装载到载人潜水器、ROV以及拖曳式探测平台上,在辅助照明的配合下对海底进行高清图像调查,特别是在深海热液和海底冷泉区的精细化调查中得到广泛应用。在深海寻找新的热液喷口时,由于调查区面积较大,海底摄像调查通常是利用拖曳式探测平台开展包括海底摄像、照相、水体异常(温度、甲烷含量、二氧化碳含量)等综合调查。这种综合拖曳式探测平台在离海底上方3~5m左右的高度沿海床缓慢移动并对海底开展实时可视调查,同时对近底层水体参数进行实时测量。科考人员可通过海底摄像获取的视频和图像资料直接判识判别底质或岩性类型,观察海底地形地貌、地质活动、底栖生物习性或及海床环境变化特征等,进一步查明海底情况。通常,利用海底摄像获取的视频资料数据量较大,如10km长的调查测线开展近底摄像调查,所获取的图片可达数百万帧。这些海量的图像数据以往通常主要由专业人员开展人工判读识别分析,该项工作不仅费时费力,其准确率也易受到人为因素影响。往往只能抽样分析,对部分图片进行判读。
! J/ S# |& ]& } 近年来,人工智能有了长足发展,与此相关的图片识别技术日益成熟,如人脸识别、车牌识别等已被广泛应用于现实生活中各个领域,在科学研究上也有广泛应用,如对雷达影像、声呐影像分类等。
' G/ O) k+ d' A 深度学习是近年发展起来的一种效率高、准确率高的机器学习算法。深度学习是基于样本数据和训练方法,通过多个变换过程分层提取、组合并描述数据特征的学习算法,在计算机视觉、自然语言处理等领域被广泛应用。卷积神经网络是端到端的深度学习模型,模拟人脑神经连接机构,通过梯度下降的方法完成参数训练,以实现对图片特征的提取和分类。卷积神经网络引入局部感知和权值共享,极大地提高了特征提取能力,减少了中间参数量。 ! [% n3 B: D7 J6 f# l3 l# B# r' s
由于调查平台与海底之间有海水阻隔,并受辅助照明、光在海水中的衰减以及折射和散射等影响,海底摄像获取的图像通常呈现不同程度的色彩失真和能见度不良等问题。因此,海底图片所能提供的识别特征也相对较少。为此对海底图像建立判识模式,就需要选择合适的模型。 7 ?# j1 m6 |! L, K: L6 P
ResNet模型是卷积神经网络的一种,它通过残差结构和BatchNormalization层(BN层),缓解了模型退化问题,大大提高了图像分类的准确率和学习效率。迁移学习方法的引入,进一步提升了卷积神经网络在小样本数据集上的识别准确率。Liu等基于ResNet模型,利用300张在白光灯下的岩心图像进行深度学习,并对钻孔岩心样品进行了分类,准确率达94.12%。Ran等将野外岩石划分为6类,利用2290张图像搭建了岩石图像数据库,进行训练并分类,准确率达97.96%。因此,卷积神经网络模型对模糊图像的识别具有极高鲁棒性,识别准确率高。本文尝试创建海底摄像获取的图像数据集,训练深度残差网络,建立海底图像识别模式,实现海底视频图像自动判识,以提高数据分析处理效率,现相关技术已被应用于海底资源评价。 + ?% F/ t# \# Y8 {
一、实验数据
5 y& g( b9 h5 O" o Y ⒈数据来源
4 p: I0 |/ z: v4 h- Q 本研究所使用的海底摄像资料来自中国大洋46航次,该航次主要任务是调查大西洋中脊热液活动及多金属硫化物的空间分布,调查区位置见图1。海底热液硫化物是海底岩浆活动及热液作用的产物,由于富含铁(Fe)、铜(Cu)、金(Au)和银(Ag)及关键或战略金属,被认为是极具经济价值的矿产资源。大西洋中央裂谷内主要以玄武岩为主,地形平缓处多为钙质沉积物覆盖,研究区的热液喷口、热液硫化物及热液沉积物等矿化信息往往直接出露于海底,易于通过海底摄像进行观察。 4 R6 w, \+ s+ W5 t3 u3 }
大洋46航次利用深海可视化综合拖曳平台开展了大量海底摄像调查,高清摄像机装载到拖曳平台内部并通过船载铠装光缆进行供电及图像资料实时传输。探测平台在拖曳作业过程中一般距离海底约3~5m,采样频率为25帧/s,图片覆盖海底的范围约(3m×5m)~(7m×10m),分辨率为1080P,为24位真彩色图片。海底影像调查时调查船航速设定为1~2kn。
! @. j6 c! I: t% s 本航次在大西洋中脊一处典型热液区按照地质构造走向布设了27条海底摄像调查测线,每条测线长约2~9km,共计160km,获取了180GB海底视频数据,1.63×107帧图片。图1为一条东西向测线(SE测线),长度为3.5km,该测线将用于测试基于深度学习的识别模式的准确率和效率。
& M+ Z$ Y4 i) C* J3 P* r 注:典型摄像测线SE长3.5km,位于南大西洋中脊约26°S处
6 B m! x0 E! Z: X5 [7 V" _: _ 图1 实验数据采集区及典型摄像测线位置 2 D% V) q3 u- T0 J9 A4 Z2 J3 S
⒉海底图片分类及主要岩性
3 Q% @8 {8 Z4 ]5 b 结合大西洋中脊地质背景及已有工作基础,依据目标物的形态、组分,将本航次获取的海底摄像资料进行分类,划分出8种类型的海底图像,其中包括6类岩性图像和2类干扰图像,本航次调查的主要目标是寻找海底热液活动区及多金属硫化物堆积区,因此块状硫化物、热液烟囱体、热液沉积物和蚀变玄武岩等热液相关岩性是目标岩性。调查区内普遍分布的远洋沉积物、角砾状玄武岩、枕状玄武岩是需要标注的目标岩性。此外拖曳平台撞击海底形成的悬浮云团和未见底两类干扰图像也进行了标注(图2)。 3 e- @7 F$ q8 K( @& D
⑴远洋沉积物
$ x3 H: ?# n' A. { 远洋沉积物,呈白色或浅黄色,发育波痕,主要成分是钙质或硅质生物沉积,主要分布于远离热液喷口,且坡度较缓地段(图2a)。远洋沉积物偶见被生物碎屑或火山碎屑混染,一般无波痕发育(图2b)。
} ]& x& S: ]0 U ⑵玄武岩
/ Q" v8 ]7 @# Z2 K4 c3 |0 b 玄武岩为岩浆喷出形成的玄武岩基座。悬崖、陡坎等坡度较大处可见完整的大块玄武岩基底岩石,呈灰黑色,表层基本没有沉积物覆盖(图2c)。此类玄武岩表面新鲜无蚀变,指示附近无热液活动。
7 H5 |9 O( ?" S1 D8 ?5 W _* O ⑶枕状玄武岩 " V" I5 h/ t8 m, A: h7 l- a
枕状玄武岩呈灰黑色,熔融玄武岩岩浆,由于其具有强的表面张力和黏性,移动过程中形成枕状外形,在调查区坡度较大处,可见大量枕状玄武岩堆积(图2d)。 6 r( n; v( B7 V
图2 摄像获取的海底图片及相似海底地质样品
?( ]# w- A6 T" E ⑷角砾状玄武岩 D# E; x' x' } H: Q
角砾状玄武岩呈灰黑色,破碎程度较高,碎块较小(约5~20cm)(图2e),推测此类角砾状玄武岩可能是由于断层活动或地震作用所致,暗示区内断裂构造较为发育。这些断裂构造是海底热液对流循环的有利通道,也是潜在块状硫化物矿床的导矿构造。因此它是热液活动的有力证据。
) @, `2 s! w3 i# _. v1 F% a$ \ ⑸热液硫化物相关岩性 % h& m1 u5 D' r% C) X8 e1 |* k
热液相关岩性是资源调查的目标,包括蚀变玄武岩、热液硫化物块体、热液沉积物。热液相关岩性可直接指示海底存在热液活动和多金属硫化物矿床发育。
}8 y5 z w" Q) n8 i* }$ v. M0 t 蚀变玄武岩主要分布在热液区附近,破碎程度较高,受到热液蚀变明显。岩石裂缝中多有浅褐黄色氧化物堆积,主要为热液沉积物与铁(Fe)、锰(Mn)的氧化物,指示该岩性所在区有明显的热液活动(图2f)。因此,它的出露是该区存在热液矿化的典型特征之一。 $ s; n, \4 b; J5 P6 y- w- [& \" n
热液硫化物块体呈黄褐色和红褐色。抓斗取样和深海摄像拖体观察表明,热液硫化物块体主要为块状硫化物和烟囱体碎块,富含黄铁矿、黄铜矿和闪锌矿。热液硫化物块体是热液硫化物发育的直接证据(图2g)。
- H9 @/ {9 K, |7 _& H! j 热液沉积物广泛覆盖于多金属硫化物露头区附近,呈红褐色,由热液流体在喷口附近沉淀或多金属硫化物风化堆积而成。取样结果显示,热液沉积物含有玄武岩碎块和硫化物烟囱残片。热液喷口附近存在大量热液盲虾、白瓷蟹等热液生物和黄色硫沉淀,是热液活动直接特征(图2h)。
+ [4 u( ~* o* m. D0 m! O, Q ⑹过渡带沉积 8 y1 H( o X! b. p |& M
过渡带沉积是远洋沉积物和玄武岩间隔分布的区域,分布于海底平原与陡坡过渡带(图2i)。
" z' h: T# s9 M( O ⑺悬浮云团
_8 B9 {5 J: ^+ q: t% t. r8 B6 C7 @ 悬浮云团指摄像拖体撞击海底时,扬起悬浮物遮蔽了海底所拍摄到的云状图片(图2j)。
_; ]4 F0 m4 ^% D3 `5 | ⑻未见底图片
0 B3 D. B& k( J( M2 x# d+ H 未见底图片指摄像机在下放与回收过程中,以及在海底时因地形起伏而离海底过远,所获取的无效图片(图2k)。
0 |0 u. r. X: L2 J) D) b 二、方法
' Y6 X; l \% T6 @- h3 f/ V! D; X 本研究技术流程如图3所示。首先,预处理视频数据,建立海底图像数据集,将其划分为训练集和验证集并进行数据增强操作;然后,搭建深度学习模型进行训练,载入训练集,基于迁移学习训练模型,并与验证集交叉验证;再进行多次实验以优化参数,模型达到收敛后保存分类权重信息;最后,将分类权重应用于识别调查测线。
0 j& e0 ]$ |3 N/ p4 T2 @: G" g( a 图3 研究流程图 8 [1 h6 z: c, v, e& T& C( ]7 S# v9 [
⒈数据集与岩性标注
* E/ j+ B, r, w4 W6 d" z 前期调查在研究区共获取覆盖160km海底的视频资料。将除典型测线SE以外测线的每帧视频数据转换为静态图片,保存为JPG格式,共获得1.63×107帧图片。典型测线作为测试集验证模型泛化能力。为避免连续、相似图像,以10s时间间隔抽稀,共获得31499张海底图像。将这些图像进行人工标注,以此建立海底图像数据集。该数据集将被用于深度学习模型的训练或验证。
0 t+ ^" ]6 a7 P! P ⒉训练集和验证集随机分配 " y/ u8 W7 i- j- ~ U
将已知岩性数据集输入到数据切分程序,利用Python的Random模块将数据集按9∶1比例随机划分为训练集和验证集,得到训练集图片28351张,验证集图片3148张(表1)。 5 D# U- }& s j3 `4 J+ C" W0 q
表1 已知岩性图片数据集
9 N. \; D3 _5 n% [9 X+ [, D9 a ⒊数据增强 6 i1 w# F$ e: S7 M9 |7 X# g
利用Python的transforms函数对数据集进行数据增强。数据增强方式为通过随机切分、随机翻转的方式模仿摄像机与海底相对位置的变化,以及通过亮度变换和对比度变换的方式模仿水下色彩失真程度的变化(图4)。 3 R) @0 ^( O& W4 n$ g. Y1 i
图4 数据增强示意图 $ ^2 }* C$ g7 ]' ?9 f3 h- C
⒋迁移学习 ' f9 F1 m' v" W) n" k5 ?- R
海底图片识别属于小数据集的细粒度分类。利用迁移学习的方法可以丰富分类权重的底层特征,增强模型的特征提取能力,有效防止过拟合。本实验使用的预训练权重参数均来自于ImageNet数据集预训练的参数。 5 {( V# L7 N( k# N) x L
⒌深度学习模型 ; O. \6 Q2 E' H& g
ResNet模型是微软研究院在2016年提出的卷积神经网络模型,具有强大的特征提取能力。ResNet-34是ResNet模型的一个变体,由34个卷积层及相关的池化层、全连接层组成。卷积层是模型的核心,作用是提取图片特征,卷积核以一定的步幅滑过输入矩阵,并与矩阵进行逐元相乘及相加得出偏置参数,输出特征映射。输出特征映射可通过式⑴实现。 : B; y; l V7 N2 v' E: B" F, k
⑴ $ V+ g6 _7 N+ T }
式中:k为第k层;h为该层特征值;i、j为像素坐标;Mj为输入特征图子集;为wk为当前层的卷积核;bk为k层偏置参数。全局平均池化层通过类似卷积层的滑动窗口产生输出,减少参数量。ResNet模型通过残差模块,防止了有效信息丢失,缓解了梯度消失和梯度爆炸问题(图5)。
4 k- m) b8 R) X 图5 残差模块结构 $ Y9 I, j0 s5 g
残差模块定义如下: ) x& F' ?3 s( k: B# f
y=F(x,W+x),⑵ $ u' p* y9 v C9 Q/ n7 W! h1 B. ]
式中:x为输入层;y为输出层;函数F由残差映射表示。每个残差结构跨越2个卷积层。BN层对每一层的输出结果进行标准化处理,加速网络的收敛并提升准确率。
) z5 s4 m& \/ ?- c/ K! Q3 t ReLU激活函数将所有负数值替换为0,同时允许正数值传递,在特征映射中引入非线性特征,一定程度上减小运算量,可由式⑶表示: % a- a7 n) w/ h/ B; d3 g
F(x)=max(0,x),⑶ : X6 C3 K" r' N }' M3 G
全连接层中的每个节点连接前一层的所有节点,融合从图片中提取的特征,并将二维特征映射转换为一维特征向量。全连接层可由式⑷表示:
M/ d, @# N3 m" n ⑷ 2 M) y7 H( q0 {4 F, q6 T
式中:i为全连接层的输出索引;m、n和d分别为从最后一层输出的特征图的宽度、高度和深度;w为共享权重;bi为偏置参数。最终使用Softmax函数对概率进行解释。将多个神经元的输出值,映射到(0,1)区间内,从而进行分类。
e z- d( n- ]- R+ k. @: }$ e/ y/ s ⒍测试 ) o. w! D6 t* R) e7 {
本实验利用1台搭载RTX2070显卡、32GB内存的计算机进行训练,使用Python3.8作为编程语言,基于Pytorch1.9深度学习框架,将数据集输入搭建好的模型进行训练。模型每批次输入32张图片,训练300周期,初始学习率为0.0001(表2)。在训练过程中记录损失函数和准确率变化。每批次训练完成后,学习率和权重自动调整,以寻找最优值。验证集与训练集进行相互验证,当准确率和损失函数稳定时即停止训练并保存权重参数。根据实验表现调节其他超参数。评价训练过程的指标是准确率和损失函数。
0 Y* |9 `: r P# {% ^9 r0 r 表2 硬件配置、软件版本及模型参数
9 u! ~ D3 P' g) d0 J ⒎模型评估
# p# [8 [' C. B# Y. d1 T$ H 准确率、精确率、召回率是分类任务中重要的度量指标,将被用于评价ResNet模型性能。3个指标可由式⑸~式⑺表述:
/ J+ W% S7 v% {% U" h 式中:TP为真实值和预测值同时为正的样本数量;FP为真实值为负,预测值为正的样本数量;FN为真实值为正,预测值为负的样本数量;TN为真实值与预测值同时为负的样本数量。
! v, n2 U4 t) ]; _3 D+ b 三、结果与讨论
Q* n" ?+ S0 ~% z3 P6 V/ r% o ⒈训练结果
' D! K+ @* [; R5 \9 q 图6为ResNet模型训练结果,由图6可见,训练集初始准确率为69.6%,损失函数值为0.94;模型在100个周期后逐渐达到收敛,训练集准确率在97%上下浮动,损失函数值约0.09;训练集准确率最大值97.4%出现在第274周期,此时损失函数为0.08;训练结束时准确率为97.1%。验证集初始准确率为88.6%,最大值出现在第215周期,准确率为98%,训练结束时准确率为97.9%。 ! Z8 C \" U! L( b. t0 F& N/ V8 {
图6 ResNet模型训练结果
9 y6 U$ b/ b9 N4 e 由表3可知,模型对多金属硫化物识别较为准确,精确率接近100%,召回率约99.4%;未见底类别的识别精确率为100%;对远洋沉积物的识别准确率较低,为98.3%,而玄武岩类识别准确率约98%。 2 n8 K9 t" B# \/ n' U
表3 ResNet模型精确率和召回率
0 M. t, N+ H+ _# l n: W9 B ⒉精度分析 5 l3 t! e, O( ?, t# k9 p
通过ResNet模型混淆矩阵(图7)可知模型对各类别图像的识别情况。玄武岩和枕状玄武岩的误判率最高。枕状玄武岩易与过渡带沉积和角砾状玄武岩发生误判。枕状玄武岩和角砾状玄武岩受风化和埋藏程度不同,形态变化较大,容易导致与其他类型的误判。远洋沉积物与过渡带沉积的误判率较高,过渡带沉积作为远洋沉积物与玄武岩区的过渡地带,与前两者没有截然的差异,容易造成误判。多金属硫化物与其他类别的误判较少。
5 I1 Q7 [- b; s. ~7 n; a. I) i+ T 图7 ResNet模型混淆矩阵
3 S8 m8 ~8 u/ b 由模型第一和第二卷积层输出特征图(表4)可知,悬浮颗粒和未见底两类图像,在卷积神经网络的第1层尚能提取一定量的特征,而到第2层的某些神经元当中则几乎不能提取特征,这也是这两类精确率高的原因。而玄武岩、枕状玄武岩、角砾状玄武岩在第2层输出的特征图则较为复杂。 8 R; U4 v N- y; L3 E& M6 O
表4 ResNet模型输出特征
/ t; z1 A0 |1 |* ~" y" ~5 y: T; E ⒊典型测线识别 3 n) K+ I5 D& R4 a2 M
图8为典型测线SE的岩性识别结果。在覆盖整条测线的前提下,为减小计算量,使用ResNet模型对深海摄像拖体视频进行逐秒识别,根据测线位置对每幅图片进行插值,从而得出图片位置,可以清晰地识别出测线记录的海底类型。以图8测线为例,测线全长3.5km,上方线段为每种类型在测线上的分布范围,下方为完整测线。本调查测线获取的底质特征为:测线东部主要为过渡带沉积;中部以玄武岩为主,主要类型为玄武岩基岩、角砾状玄武岩和枕状玄武岩;该测线西部底质类型复杂,且多金属硫化物主要出露于测线西部。基于深度学习的方法可以识别海底岩性类型,定位矿化露头。 6 w0 T% h i( j
图8 典型测线(SE)的海底岩性识别结果 $ J& z0 I# y9 Q4 H- e2 }( @, [+ d
⒋识别效率 ; ]% a( d' `8 M
该条测线长3.5km,调查用时为3.6h,获取3.24×105帧图像。对摄像测线进行人工判读将耗费约4h,使用ResNet模型逐秒识别,仅需6.5min,判识时间小于调查用时。由此可见,利用该方法可实现调查船现场实时判识。判识调查区160km摄像测线,利用该技术只需要5.5h,而人工判识则需要200h。如表5所示,计算机识别效率较人工识别有显著优势,利用ResNet模型可以进行逐帧实时识别,提高识别和调查效率。 6 g6 W) ]2 s+ S8 ]6 i: _
表5 模型识别效率
9 W$ Y1 `9 p& {! V' L" J* y 四、结语 + ^$ o- u4 e8 ]+ C1 H/ e
本研究建立了海底图像数据集,设计并训练了基于ResNet模型的深度学习模型,建立了南大西洋中脊海底岩性图片自动识别模式。在本研究区,ResNet模型识别海底图像的准确率约为98%,漏判率低,准确可靠;识别每帧图像只需0.03s,小于0.04s的采样间隔,说明该模型可用于海上调查实时处理分析,及时发现目标岩性;同时可实现海底摄像与岩性识别同步进行,省去庞大而繁杂的数据后处理工作。该模型具有较强泛化能力,结合高清深海摄像测线调查,可用于海底热液活动区高效调查工作,快速定位热液喷口位置。未来可搭载于海底智能机器人平台上,实现资源调查智能化。 + [0 d! i# U( ]5 l! t, j, v* M
1
) J; U! g+ n0 _ END
) G5 G S/ s4 A$ i7 t' z) \8 B 1
+ @3 F. p& x3 M4 t7 d" Q3 ^ 【作者简介】文/赵秋魁 李传顺 闫仕娟 叶俊 赵越 时欣宇 杜德文,分别来自自然资源部第一海洋研究所、海洋地质与成矿作用自然资源部重点实验室和山东省深海矿产资源开发重点实验室。第一作者赵秋魁,1997年出生,男,硕士研究生,主要从事深海固体矿产资源评价方面研究;通信作者李传顺,1980年出生,男,副研究员,博士,硕士生导师,主要从事洋中脊多金属热液硫化物方面研究。本文为基金项目,国家大洋专项“十三五”项目(DY135-S2-2)、国家自然科学基金面上项目(42276080)。文章来自《海洋科学进展》(2023年第2期),用于学习与交流,参考文献略,版权归作者及出版社共同拥有,转载也请备注由“溪流之海洋人生”微信公众平台编辑与整理。  fill=%23FFFFFF%3E%3Crect x=249 y=126 width=1 height=1%3E%3C/rect%3E%3C/g%3E%3C/g%3E%3C/svg%3E)  fill=%23FFFFFF%3E%3Crect x=249 y=126 width=1 height=1%3E%3C/rect%3E%3C/g%3E%3C/g%3E%3C/svg%3E) - {$ Z% ~$ t4 I: ?
相关阅读推荐 海洋论坛▏基于声呐图像的水下目标检测研究综述水声技术▏黄海宁等:基于形状特征的水声图像小目标识别方法海洋论坛▏卷积神经网络识别侧扫声呐影像的研究海测讲坛▏霍冠英:水下声呐图像目标检测与识别研究海洋论坛▏水下图像目标检测数据集及检测算法综述科技前沿▏水下光学图像中目标探测关键技术研究综述  fill=%23FFFFFF%3E%3Crect x=249 y=126 width=1 height=1%3E%3C/rect%3E%3C/g%3E%3C/g%3E%3C/svg%3E)  fill=%23FFFFFF%3E%3Crect x=249 y=126 width=1 height=1%3E%3C/rect%3E%3C/g%3E%3C/g%3E%3C/svg%3E) . e( S6 Q5 V) B/ ^6 k0 z
公众号 1 y' V6 }/ p+ t% W0 F: i' l
溪流之海洋人生
% H5 E, U3 \9 j3 _0 w 微信号▏xiliu92899
7 r/ v( e9 y, _/ t 用专业精神创造价值
6 W1 [$ c W$ o, X$ d/ R0 o1 m 用人文关怀引发共鸣 您的关注就是我们前行的动力
9 p7 I% P: S: A D( D 投稿邮箱▏191291624@qq.com
2 V ], `5 t8 {1 k& c' |$ X+ Q' |& b* k# r& N' D1 j
9 x$ v, Z. B( Q* `/ e4 G; F
+ O: b9 Y8 p8 [2 _6 c) b
- f/ @7 O5 v2 z9 }8 s7 z( M1 f |