点击上方“溪流之海洋人生”即可订阅哦
/ {& `7 d% G" T0 h9 @! u+ r! T 秦清亮1,张玉洁2,刘斌1 + |& ^. f C8 @8 B/ `3 m
1.解放军海洋环境专项办公室;2.海军驻天津航保军事代表室
" {; a% ~ ~& n 【摘要】为加强海洋测绘数据集的规范性,制作满足用户需求的数据集,本文从用户需求、数据模型和编码格式等三方面分析梳理了数据集制作的前提、基础和条件。讨论了影响数据集数据模型和编码格式选择的各项因素,提出了制作海洋测绘数据集应重点关注数据模型和编码格式的兼容性、扩展性及标准化的问题,并对采用标准、用户需求和信息平台建设等方面的提出了制作海洋测绘数据集的一些原则性意见,可为数据集制作和相关技术人员提供参考。 # P+ c) Q- i9 e- p/ A: q' I
【关键词】海洋测绘;水深数据集;数据模型;HDF5;产品规范 
; r# q% b1 q2 f8 T2 T4 m+ ~ 一、引言 * [- M* M- `) v) W: o+ o3 m
数据集是可以识别的数据集合[1]。根据中华人民共和国测绘行业标准《地理信息公共平台基本规定》(CH/T 9004-2009),数据集是地理信息公共平台的核心内容,主要包括在基础地理信息数据上通过数据提取、扩充和重组等加工过程形成的地理实体数据、影像数据、地图数据、地名地址数据和三维景观数据等面向服务的产品数据,其他部门或单位的专题数据,以及目录与元数据[2]。数据产品是与数据产品规范一致的数据集或数据集系列[3]。
% y( T/ u8 V6 |+ L3 N; [: H# y. G 国内外海洋测绘数据管理机构都会向用户发布各类海洋测绘成果数据集。水深成果方面,美国NOAA主要对外发布 BAG、PDF、GeoImage PDF、XYZ和A93等格式的水深成果数据集,近10年最新发布的数据集均统一到BAG格式。国际海道测量组织数字水深数据中心(DCDB)主要发布BAG、NetCDF、tiff、XYZ、sd和asc等格式的水深成果数据集,BAG格式也是该组织S-102标准推荐的格式;国内涉海部门生产的水深成果数据集主要是Caris、CAD等商业软件平台或特定软件格式数据,部分单位简单采用XYZ文本格式,尚未形成标准化的水深数据集。制图方面,国内外除制作传统的纸质海图产品之外,还包括了诸如ESRI公司所开发的Coverage、Shapefile等格式数据以及S-57国际标准的ENC等遵循不同数据模型的数据产品。不同标准格式的数据集对数据的共享和使用有着较大影响。
' c6 O# A& p9 n @: n, s 近年来,国家设立的各海洋专项以及各涉海部门获取了大量的海洋测绘数据,数据共享的需求日益凸显。但由于数据来源和软件平台不同,导致数据标准和格式不统一,进而造成了数据共享和使用的诸多问题。为达成数据共享目的,本文将从用户需求、数据模型和编码格式等方面梳理影响数据集共享的各项因素,并探讨数据集制作应注意的相关问题。 2 Z2 T R$ c2 y7 }
二、制作数据集的基本要求
9 W+ S, [6 J5 h+ x; ]# h, X 制作数据集的目的是满足多源地理信息空间集成共享、信息持续更新和不同领域用户使用的需求。数据集的共享交换依赖于用户对数据集要素目录、应用模式以及文件编码规则的了解。 + [$ Z7 M& d) H5 K5 K4 e& A
⒈用户需求 . A: j0 c- H4 t& ?
深入做好各类用户的需求研究,是我们制作数据集重要的前提。一个数据集的内容是按照客观世界的要素和特定应用的需求定义的。我们制作数据集的目的是为了共享和使用,所以,孤立的、不符合用户需求的数据集没有任何价值。因此,对数据集的应用领域进行需求调查,加强数据集制作的针对性和目的性,就具有极为重要的意义。
3 E- k7 E$ n* T4 e! N ⒉数据建模 ' y0 \, m* |3 p+ J
建立或引入一个数据集要素类型、特征和约束等组成的概念模式,有利于用户对数据集有一个普遍和正确的理解,这是数据集共享和交换的基础。测绘数据概念模式的标准化将提高在不同应用中共享测绘信息的能力,这些概念模式将被测绘信息的系统与软件开发者以及测绘信息用户所使用,以实现对数据集数据结构的一致理解[4]。比如中华人民共和国国家标准《地理信息 空间模式》(GB/T 23707-2009/ISO 19107:2003),该标准提供的概念模式用于描述与处理地理要素的空间特征,为地理信息数据集提供标准化的空间数据模型,推进了地理信息的共享和交换。
) x% Y& x' v& G% @; o- z 数据模型不同于计算机存储的数据结构,数据集空间数据模型可采用多种数据结构,而每种数据结构又可选用多种文件格式进行存储。比如地表高程数据可用栅格模型来组织,数据结构选用游程编码来表达。该地表高程数据同样可用矢量模型来组织,并以DLG文件格式存储。
, W8 q/ k- ?2 }: d: B, _ ⒊编码格式
% g! c- \& x, c5 } 选择一个合适的数据集编码格式,以便于计算机的读取、交换和使用,这是数据集共享和交换的必要条件。在数据集的制作过程中,数据编码格式的选择应该是一个基本的设计考虑因素,最优的数据编码格式有利于数据集共享和交换的实现。 ' k# M9 c, |4 I$ q2 U
一个数据结构可以有多种编码格式,每种编码格式对计算机数据的处理的效率和效果是大不相同的[5]。比如HDF5与XML格式,相比其他数据格式,二者能通过自我描述的方式,更易于实现跨平台共享和交流。在ISO 系列地理信息标准中,其思想是将数据的编码格式和数据的“内容”区分开[6],因此相关海洋测绘标准并没有规定强制使用的编码格式。 + ?7 s2 F1 S3 r/ G) c$ I; @" Q
三、制作海洋测绘数据集的有关建议 9 P8 p. S. i8 E3 k0 Q% u' [! R
⒈选择适当的数据模型 % c5 D7 y) r2 V/ }+ m4 A% t
⑴数据类型
+ \) k7 [: h2 L1 y6 M 海洋测绘数据集内容由不同的地理要素组成。要素是现实世界现象的抽象表示,要素具有两方面属性——要素类型和要素实例,要素类型是要素目录中定义的一个类,要素实例是要素类型的一次实现,并在数据集中按照对象的方式表示。
, x& x! A3 R& A3 a! ^/ G& E* q 一是概念模型定义抽象的类型(type)。比如测绘一般常用的矢量数据模型或栅格数据模型分别是基于对象(要素)模型和场模型两种概念模型的实现。矢量数据是由几何单形与拓扑单形组成,单独或组合使用几何与拓扑单形可以表达地理要素的空间特征。栅格数据是将覆盖区域划分为规则格网单元,并为每个单元赋一个属性值所形成的数据。
% c& E, c3 I% ?8 w" u$ | 二是应用模式定义概念上的类(class)。以S-100标准的通用要素模型为例,潮汐预报方法类在应用模式要素目录中定义如下[7]: 5 W" e! Y6 `0 g/ n
表1 类的定义
8 D5 a9 @' \9 Q% R2 U9 v" d! A 名称 " s' |7 N: \1 p. T5 m# ~% L
潮汐预报方法 + h% m5 }$ i9 }$ m: f( [" l8 Z
属性类型
% B- C- u! @ e5 Y3 h 简单 9 u B( [) t$ n& T2 ~5 P. q
定义
, X4 Z. n; {# ] m- ?0 G( `. T- b 用于计算潮汐预报的方法
9 x( t3 y5 `& K* c) v4 Y1 L 双峰拼写法 6 P% @. V& Y8 `; F" K+ F
methodOfTidalPrediction % @; s( n; B q6 s+ y
基数
6 s9 Y4 r) x+ f 1 : L3 t k$ F. V! U' s
数据类型 + l; g4 `7 n4 s" L
枚举
6 D/ `8 Q: s I2 w" I/ `) j 值 : a: H0 f: a7 Q) v. ]
1.简谐的 2.全谐波的 3.随时间和高度而变 " Z7 z @# ^3 G
三是各种数据处理软件系统定义类或数据结构的实现。比如ArcGIS对点、线、面等要素有着明确的定义。但不同的GIS软件采用的地理信息空间数据模型和格式并不一致。王蕾等在《地理空间数据模型的对比研究》中发现,通过对ArcGIS 、AutoCAD、MapGIS、SuperMap及MapGuide等软件平台数据模型进行对比分析,各平台间的地理空间数据模型存在差异[8]。这就造成了不同平台的数据转换会导致部分信息出错或丢失。 ( ]- R* o- [2 j) g% `4 u
⑵测量及表达方式影响
# b, p$ p% C; p: I 数据的获取方式和数据要素的表达对数据模型的选择有着决定性影响。比如数据来源于卫星影像,并要重点表示面状要素,则需要采用一个基于场的数据模型;如果数据是以测量区域边界线的方式,重点表示线状要素,就需要采用一个基于要素的数据模型。 $ V' \- a1 J5 {3 B0 @4 Z$ O
⑶标准化原则
! `9 W/ q1 K! F% @ 数据集标准化水平对数据的交流和共享有着重要影响。目前,IS019100系列标准是大多数地理空间标准开发的基础。海洋测绘领域,国际海道测量组织根据IS019100系列标准推出了《S-100通用海洋测绘数据模型》,这是一个现代化的海洋地理空间数据标准,与国际主流空间数据标准相兼容。为提高标准化水平,促进数据集的交流和共享,我们应当按照ISO19109《地理信息应用模式规则》,在ISO通用要素模型(GFM)基础上,建立海洋测绘数据集的应用模式,明确数据集的要素目录,包括要素、属性、枚举值和信息类型等。 & h5 I- i, F9 t3 u
⑷灵活性和扩展性
4 _+ ~. T5 F) R K; S 一个采用固化数据模型的数据集在不同领域用户间难以共享和应用,模型的灵活性和扩展性是我们选择数据模型的重要参考因素。以应用于ENC的S-57标准为例,其数据模型嵌入于一个封装的数据中,模型的灵活性和扩展性不足,并且难以支持网格化测深或者时变数据的需求。相比之下,国际海道测量组织颁布的S-100通用要素模型灵活性和扩展性较大,该模型与结构相分离,不仅能应用于ENC,还可以应用于高密度测深、海底分类和海洋GIS,未来还可以根据需要扩展增加三维数据、时态数据等[7]。 3 \: D1 Y. v+ g1 {( W) x% l
⒉选择通用的编码格式 1 z+ m' w( i8 a6 F, ]1 R8 s
⑴二进制与文本格式
+ f3 |$ {4 {; ^: A7 Q& ^ 基于数据模型、数据软件系统和用户需求的不同,各数据集产品规范中的数据编码格式允许开发者自行确定。部分编码格式示例如下: # i) _) K* {" E" c! s8 |# K& n
表2 编码格式种类 7 l* G% ?6 u1 O; F
编码格式名称 - ^9 F! F6 V* N% ]2 L
说明
5 \( b. w' K+ B3 c) @+ u- \7 a ISO/IEC8211
: l0 t! Q# D- R) X S-57ENC编码标准
( k2 X* n6 Q+ t- ?' N GML ! {& j, e. g8 M. X9 C- i
地理标记语言 , M' d" w! z- y) [
XML . o- ?9 c+ B0 |* m6 m$ \+ j9 d: `
可扩展标记语言 7 [8 F4 @1 f o, g
HDF5 + q3 {) ^( h2 s- `
分层数据格式 版本5
_' E- M1 y* p+ M0 X. L! }2 Q VCT
7 F6 n1 c4 @2 c/ e' d2 I- @; k8 ` 地球空间数据交换格式 ! N5 y- b: J- {* F
HDF5、ISO/IEC8211等属于二进制格式。其中,HDF5是美国国家计算中心推出的一种面向对象的新型数据格式,是一种具有自我描述性、可扩展性、自我组织性的可用于绝大多数科学研究的数据存储格式[9]。二进制格式文件有诸多优点,如计算机容易理解、处理速度快、存储效率高等,但兼容性相对较差,每一类二进制文件都有自已特有的格式,除约定通用的数据格式外,我们不能在一个应用程序里打开另一个应用程序生成的二进制文件。 6 W4 N* O! |# ]+ D' F3 U
VCT、XML、GML等属于文本格式。其中,VCT格式是国标《地球空间数据交换格式》(GB/T 17798-2007)规定的矢量数据文本格式[10];XML是W3C推荐参考通用标记语言,使用XML可以用来标记数据、定义数据类型,它是一种允许用户对自己的标记语言进行定义的源语言[11]。与二进制文件一样,文本文件也是比特流。但是与二进制文件不同的是,文本文件是以一种标准格式组织起来的,文件字符定长,译码容易。所以,文本格式文件更易读,更便于记录、调试,许多应用程序都可以理解文本文件,更容易实现不同系统、不同程序之间的数据共享。但大数据量的文本文件会占用较大的存储空间。 9 m; [% _4 W2 M! ]( y6 i( E- o
⑵扩展性要求
3 U! C, S- p0 u 海洋测绘数据在各领域应用日趋广泛,这就需要测绘数据编码格式要有更好的表达能力。如果数据编码格式固化,必然导致数据难以进行维护和扩展,如果编码格式太过复杂,更会使得用户使用门槛过高。考虑用户多样性及共享需求,应当选择一种简单通用、易于扩展的数据编码格式。目前,国际海道测量组织在S-102产品规范中,指定HDF5格式为交换文件编码格式[12]。该格式在逻辑上采用层次式结构,虽然结构简单但是扩展性很强。在此基础上,用户可以构建满足自身应用需求的数据结构。
c5 T& Y! M# E/ w ⑶跨平台支持
6 z0 {6 u1 U9 u. I2 \ 不同软件和操作系统在文件编码和数据存储方面存在一定的差异,造成了诸多数据转换的问题。目前,空间数据跨软件和平台共享一般采用数据格式转换方法,即通过构建一个中间过渡类型的数据格式,实现数据在不同平台的共享。为方便进行空间数据交换,并尽量减少空间数据交换损失,许多国家和国际组织制定了空间数据交换标准,如美国的空间数据交换标准(STDS)和我国的VCT空间数据交换格式(CNSDTF)标准。关于地理信息元数据共享方面,我国在《地理信息 元数据 XML模式实现》(GB/Z 24357-2009)规范中,规定了地理信息元数据XML(gmd)的编码方法以及XML模式实现,以利于通过网络或离线进行地理信息元数据的共享和交换[13]。通过这些空间数据转换标准,在一定程度上解决了数据跨平台使用的问题。尽管国际海道测量组织在标准规范中并没有强制统一数据集的编码格式,但我们还是应当参照相应的标准规范,采用各平台均能支持的编码格式制作海洋测绘数据集。
) v5 l- ?0 Q( V( r H ⒊符合数据产品规范 . F2 |; P7 S+ X! B, X" T/ t* d
为确保用户能准确了解和使用海洋测绘数据集,数据集的制作和生产必须要有章可循,要满足相关的数据产品规范。例如,为规范ENC和BAG数据生产,国际海道测量组织制定了S-101和S-102等产品规范标准。国内参照ISO19131标准,也制定了《地理信息 数据产品规范》国家标准。数据产品规范是数据集或数据集系列的详细描述及补充说明,从而使其它方能够创建、提供和使用数据集或数据集系列[3]。数据产品规范是对数据产品将达到或可能达到要求的一个准确技术描述,它是数据生产和获取的基础。
0 L2 ]/ I6 y0 j# \4 r 就产品规范和元数据关系而言,元数据用来描述一个数据集的实际状态,而数据产品规范则描述数据集应达到的状态。 - ^" H2 x& C' \% Q2 e8 C( R' z, }8 n
根据《地理信息 数据产品规范》标准,数据产品规范主要包括以下内容:概述、规范范围、数据产品标识、数据内容和结构、参照系、数据质量、数据产品交付和元数据等,也可包含数据获取、数据维护、图示表达和其他信息。针对海洋测绘数据特点,国际海道测量组织在S-100标准中制定了一个清晰的海洋测绘数据产品规范结构,并提供了创建一个产品规范的作业流程。以上两个标准可用于指导和规范我们海洋测绘数据集的生产。
. O( T. v2 A1 p6 H( q' F 四、制作数据集应注意的其它事项 + ?9 @5 z! N5 |/ p: s; _
一是制作数据集要同步统筹信息平台的建设。信息平台是数据集的载体,一般由数据集、交换管理系统、在线服务系统和支撑环境组成。一个成熟的信息平台有利于实现数据集的共享和应用。所以,我们制作海洋测绘数据集,要考虑信息平台的建设现状,要同步统筹信息平台建设。建议在信息平台大的体系框架下,按照体系建设思路,统筹海洋测绘各类数据集的内容和格式,制定统一的数据产品规范,防止各数据集制作单位各自为政、标准混乱,以确保各类海洋测绘数据集内容和格式的规范性。 / ]/ H' v( Z" {& j1 k" z/ q
二是制作数据集要注意内容及格式的延续性和适应性。海洋测绘数据的用户涉及多领域、多部门,用户对数据内容和格式的需求是多样的。以水深数据为例,用户有的需要格网数据,有的需要SHP格式数据,有的可能仅需要简单的X、Y、Z文本数据。不同用户在数据内容、标准和尺度等方面的需求各不相同,而且有很多装备和用户需要特定固化内容和格式的数据集,并且这种状况短时间内难以改变。因此,在现阶段,我们要根据现实情况制作和提供多种格式的数据集以满足不同用户的需求,甚至要根据特殊用户的需求进行定制服务,同时又要加强从标准方面引领,把多样化的用户需求逐步整合到统一的标准数据集格式上来。
4 w5 e! I2 y* j, [# S5 j5 | 五、结束语
7 F' H/ B. d. x w3 [ 数据集的共享使用受用户需求、数据模型、编码格式、标准规范和信息平台等诸多因素的影响。为加强海洋测绘数据集制作的规范性:①要加强标准的引领。参考《地理信息 数据产品规范》等ISO 19100地理信息系列标准,以及国际海道测量局S-100系列标准规范,跟踪国内外海洋测绘数据模型和编码格式的发展方向,统一各类海洋测绘数据集制作标准,最终实现海洋测绘数据集的标准化、系列化和科学化;②综合考虑不同领域不同层次的用户需求。针对目前数据集制作的现状,我们下步需要切实加强需求调研,按照兼容、易于维护和扩展的原则,合理选择数据模型和编码格式,制作满足各类用户需求的海洋测绘数据集;③统筹海洋测绘信息平台建设。按照体系建设思路,同步统筹数据集制作和信息平台建设,加强数据集与软硬件支撑环境的协调与衔接,以避免重复性数据转换及数据和平台脱节。
& C/ o5 H: V' y 参考文献:
: X2 j: f& E5 b4 U& r# u [1]GB/T 19710-2005.地理信息 元数据[S].北京:中国标准出版社,2005.
" Y: U/ s. A3 M) A- f- a5 m [2]CH/T 9004-2009.地理信息公共平台基本规定[S].北京:测绘出版社,2009.
2 ~, j2 K! c. \) E8 P3 E g [3]GB/T 25528-2010/ISO 19131:2007.地理信息 数据产品规范[S].北京:中国标准出版社,2010.
" t* @4 f$ w7 i1 @9 T [4]GB/T 23707-2009/ISO 19107:2003.地理信息 空间模式[S].北京:中国标准出版社,2009.
1 K. J/ ?& D5 K' T# G [5]苏光奎 李春葆.数据结构导学[M].北京:清华大学出版社,2002.
. w! }" G& T- n% @8 } | [6]白亭颖.电子海图显示与信息系统的国际标准[J].海洋测绘,2004,24(2):67—70. ( X/ }. E0 g* R1 j
[7]中华人民共和国海事局译,S-100通用海道测量数据模型[M].天津:天津科学技术出版社,2011.
* R8 T/ M8 z" ^ [8]王蕾,邓国臣,郑培蓓,等.地理空间数据模型的对比研究[J].遥感信息,2013,28(5):109—117. 7 q+ W |8 D7 v8 q; ^
[9]王永韬,刘良明.HDF5格式特点及其对遥感数据格式标准化的几点启示[J],国土资源遥感,2005,65(3):39—42. # D/ v5 q4 n7 G6 {7 A* D2 _: W
[10]GB/T 17798-2007.地球空间数据交换格式[S].北京:中国标准出版社,2007.
" R& U0 e, z4 d [11]David Hunter,Jeff Rafter,Joe Fawcett.XML入门经典(第4版)[M].北京:清华大学出版社,2009.
7 s, w0 \+ q8 o% \. ~6 R [12]IHO.S-102 Bathymetric Surface Product Specification,Editionl.0.0[s].Monaco:International Hydrographic Bureau.2012.
; k& ^5 Z! o" n: m! c8 n" m [13]GB/Z 24357-2009.地理信息 元数据XML模式实现[S].北京:中国标准出版社,2009.  ! k- f5 w4 x7 B. C w
【作者简介】第一作者秦清亮,1973年出生,男,山东诸城人,高级工程师,硕士,主要从事海洋测绘技术研究。文章来自《海洋测绘》(2018年第5期),版权归《海洋测绘》所有,转载请备注论文作者,说明文章来源,并请备注由“溪流之海洋人生”微信公众平台整理。  
; J9 N3 p; L% I3 h 相关阅读推荐 # O8 _6 k# p5 U8 j, `0 N7 ^! b8 a
海洋论坛▏美国水下信息系统发展现状分析 6 j5 ?; @2 Q( \9 J
科普▏国外12个海洋与地质资料数据库 2 v6 o4 V5 D4 e
杂谈▏
3 q! b: Q1 x. v# d7 O- M+ Y) q
) P6 P |0 R2 \' J9 o! T. y 不以获取“精准海洋环境资料”为目的的海洋调查几时休?
5 \: T$ [9 t) U6 Q/ ^+ k
1 T9 g0 I6 y; `) |, M 海洋论坛▏海洋地理信息系统现状及发展趋势 9 H2 O' l0 x3 {+ ^
测绘百科▏海图数据库、符号库和电子海图   J+ S$ d2 n0 f" l8 N; E( U
公众号
' [9 c. Q: W* v9 {5 n 溪流之海洋人生
+ Q e3 U% a" G! K( B9 _ Y 微信号▏xiliu92899 ! o& P9 B O- j+ E# Q
用专业精神创造价值 1 h8 x( H5 o1 C) a
用人文关怀引发共鸣 您的关注就是我们前行的动力 " j7 ?( v1 F5 m9 ~+ W% Q
投稿邮箱▏3419640254@qq.com ( W8 |) N) e1 t* Y9 e& b4 y
3 x s/ r! b2 [0 o; r8 ~4 ~+ H' I. b5 J! V# Y, D; A( B
2 H+ d y4 S# y" t# F' u u$ q, E( v. U3 |
! l; G2 j" j6 l+ F1 {3 t/ w |