$ U3 U3 ~% ] Q! A! N 海洋基因组学白皮书(2021/11/03) & G( j" L- D X; q/ I6 x W
///////////////////// ) |$ P' R7 i3 E n k1 r
获取全球生物遗传信息可以加深我们对生命的理解。2017年,全球科学家合作启动了大规模地球生物基因组计划(EBP),该项目旨在十年内对大约150 万种已知真核生物进行测序。2018年,PNAS杂志发表文章介绍了该计划的详细内容。该计划包含多个子项目,大部分子项目都在顺利进行中。例如,10KP项目已经获得了大约1,500个物种的基因组序列。2020年,B10K项目在Nature上发表了360多只鸟类物种基因组测序分析的最新研究成果。
5 o' s4 F- F7 g# I$ Y6 e" o2 p, ^
8 T1 Z) C: B2 h9 [" ~( m. b$ d 在海洋生物基因组学方面,青岛华大基因研究院在本次ICG-16期间,集中发布了4个海洋生物基因组数据库,分别为水生脊椎动物基因组、藻类基因组、海洋无脊椎动物以及海洋微生物基因组。 + a! H' a: {; \2 x
///////////////////// + u* h" e& w5 t. b$ e
青岛华大基因研究院构建了四个海洋生物基因组学数据库,并基于这些数据库进行了基因组学分析,相关结果已分别在bioRixv上预印。
j6 u! v% p7 k4 r" i 01 水生脊椎动物基因组数据库
" y& @4 f' M( F+ |. A3 w - `9 {0 o9 H4 _' \' V; h& F: N
水生脊椎动物主要的研究对象通常包括鱼类、两栖动物、爬行动物和海洋哺乳动物,在生态、经济和科学上对具有很高的科研价值。目前水生脊椎生物已经有多个物种被测序,但是相比陆生脊椎动物,其被重视程度依然不足。在基因组数据资源方面也还没有相关数据库对已经测序物种进行全面总结。因此,青岛华大基因研究院在基于Fish10K项目初步结果基础上,汇总涵盖软骨鱼、硬骨鱼、两栖、爬行、海洋哺乳等5大类水生脊椎动物,共630种物种的基因组信息(图1),并进行比较基因组学分析,以探寻水生脊椎动物在物种演化和环境适应性方面的分子机制。 ' p9 X6 m( q$ k! E
图1. 630种水生脊椎动物基因组资源的主要分支通过对基因组大小和GC含量进行分析,发现两栖动物在基因组大小上有显著的差异(图2,图3)。两栖类物种组装的基因组范围为0.5 Gb ~ 32 Gb。同样在鱼类中也观察到基因组大小变化,其基因组大小范围分布在350 Mb ~ 40 Gb。在软骨鱼中,基因组普遍超过3G,其大小范围为3 Gb ~ 6.7 Gb。
5 Z4 D1 i9 ]) x( J3 r! C 图2. 水生脊椎动物基因组的组装质量和大小图2. 水生脊椎动物基因组的组装质量和大小 ! E) w% q% P4 f7 J" J
图3. GC含量和TEs在水生脊椎动物基因组中的比例分布比较基因组学分析表明,转座子元件中LINE类型在软骨鱼中占优势,DNA类型转座子较少;在硬骨鱼当中,LINE和DNA转座子的比例发生了改变,即DNA转座子成为优势类型;随着物种演化,在两栖和哺乳动物中,LINE又成为主要重复序列类型(图4)。TE在生物演化中的研究之前一直少有报道,这次通过对水生脊椎动物基因组进行大数据分析表明TE含量的变化促进了生物从水生到陆生的演化和对环境的适应性。
' w, J7 n1 L- `3 I9 j% M! e 图4. 海洋脊椎动物主要转座因子的统计同时通过该数据库,对脊椎动物水生到陆生转换关键基因家族也进行了分析(图5)。这也改变了以往对基因功能的研究只能基于少数物种数据的局面。在脊椎动物从水到陆的进化过程中,重要的变化之一是呼吸方式,因此我们研究了嗅觉受体OR基因家族。结果表明水溶性的ORs基因大量出现在硬骨鱼中,而气溶性的ORs在陆生脊椎动物(两栖、爬行、陆生哺乳类)中则大量出现;更有趣的是,软骨鱼中缺少所有Type1和部分Type2 的ORs,这需要进一步验证相关基因的功能。同时通过该数据库,对脊椎动物水生到陆生转换关键基因家族也进行了分析(图5)。这也改变了以往对基因功能的研究只能基于少数物种数据的局面。在脊椎动物从水到陆的进化过程中,重要的变化之一是呼吸方式,因此我们研究了嗅觉受体OR基因家族。结果表明水溶性的ORs基因大量出现在硬骨鱼中,而气溶性的ORs在陆生脊椎动物(两栖、爬行、陆生哺乳类)中则大量出现;更有趣的是,软骨鱼中缺少所有Type1和部分Type2 的ORs,这需要进一步验证相关基因的功能。 1 N; S" n* Q# w
图5. 62个代表物种的嗅觉受体的基因数,两栖类、爬行类和海洋哺乳动物图5. 62个代表物种的嗅觉受体的基因数,两栖类、爬行类和海洋哺乳动物▶ 预印文章信息:
6 x. T |* M" N! ~( V https://biorxiv.org/cgi/content/short/2021.10.29.466026v1
* C- e% x t: M. u8 d) P i ▶ 相关数据集信息:
$ q4 z$ o2 Y* g$ t* A3 e6 G2 c
( g) o3 l! D: n. `4 J# {" Q 02 藻类基因组数据库
. ~; T" b; v9 Z, M
2 F2 K9 D9 p$ r8 v* s6 A! @2 [; o 藻类具有高度多样的分类学和形态学特征,广泛用于研究植物起源和陆地化以及多细胞进化。藻类基因组学研究的最大挑战之一是微生物的污染,尤其是共生微生物。我们无法在藻类样品准备过程中完全去除微生物,这给藻类基因组的组装带来极大的挑战。目前公开的藻类基因组有190多种,其中大部分是绿藻。通过比较不同藻类之间的污染微生物组成,发现不同类型藻类的共生微生物种类相似,但对于特定的藻类存在一些特有类型的微生物。同时系统地比较了这些不同分支的藻类基因组特征差异,包括基因组大小、组装连续性和完整性、GC 含量、重复序列的丰度和蛋白质编码基因数量(图6)。基于193个藻类基因组藻类基因组数据,利用BUSCO单拷贝基因构建了藻类系统发育树(图7)。重建的藻类的系统发育树中,灰藻是最古老的的藻类分支,同时绿藻和红藻可以清晰地分为两个不同的群体,而轮藻是陆生植物的起源。 2 J5 b* p( }6 n8 M( r
图6. 已发表的藻类基因组分布图7. 藻类系统发育树图7. 藻类系统发育树▶ 预印文章信息: ~% ^4 x1 x5 j9 i+ M+ N. q
https://biorxiv.org/cgi/content/short/2021.10.30.466624v1
" B5 W- a R/ z ▶ 相关数据集信息: ; \6 R0 J) W. U) T3 D( b9 b
* m( s# p$ @$ m5 x
03 海洋无脊椎动物基因组数据库& A0 j! G4 D3 I& r- c
) b* M* H$ F6 e
发布的海洋无脊椎动物基因组数据库中,收集到了大约 190 个海洋无脊椎动物基因组(图8)。通过利用 974 个BUSCO单拷贝基因重建了海洋无脊椎动物系统发育树,对一些长期存在争议的进化关系进行验证。
4 F! C* _* Y4 n% R 图8. 海洋无脊椎动物基因组分布尽管无脊椎动物的神经系统被认为比脊椎动物的神经系统简单得多,但不同门类的神经系统复杂程度差别也较大。例如,水母拥有最简单的神经系统,称为“神经网”,没有明显的中枢神经区域。但是一些软体动物进化出了中枢神经系统。因此,它们是研究神经系统进化的理想群体。我们关注鉴定了三个中枢神经发育相关基因家族。正如预期的那样,在基部栉水母中,几乎没有发现目标基因。有趣的是,除了 PCDHa 之外的所有 PCDH 基因在章鱼中都经历了显着的扩增,这就是章鱼如此聪明的原因(图9)。 2 |& r% n5 A4 r5 s( B# h
图9. 无脊椎动物神经系统发育相关基因拷贝数▶ 预印文章信息:
& n7 E7 H @! R U1 _# t M https://biorxiv.org/cgi/content/short/2021.10.31.465852v1
% F* M6 n" G* K U2 f, H3 H ▶ 相关数据集信息:
- s( j/ v! q( V2 x 04 海洋微生物宏基因组数据库
$ R+ l, m% [& \* `
9 `" }+ _* O3 N/ v 经历35亿年的进化,海洋微生物在海洋生物的多样性、丰度和功能代谢中占据了最主要部分,并在所有其他海洋生物生存和发展中发挥着基础的作用,也是海洋生态环境系统多样性和健康监测的重要生物标志物。我们整合了NCBI、EBI、JGI等数据库中的海洋微生物宏基因组数据,获得了30,000多个样本,覆盖3,100多个采样点的近200Tb数据,其中大部分样本位于内陆或近海地区,远洋和深海样品的数据较少(图10)。我们对这些样本的宏基因组数据重新进行了组装,构建了迄今为止最完整的海洋微生物基因组数据库,得了分布在125个门的超过20,000个高质量的海洋细菌基因组 (Metagenome-Assembled Genomes, MAGs)。其中,约69%是未分类的潜在新种基因组,包括13个候选新门基因组。我们还获得了超过 2000 个古细菌基因组,其中约 74% 是未分类的基因组,包括 2 个候选新门基因组。基于海洋微生物基因组数据库,我们进一部分对起基因组特征进行了比较,其中粘细菌(Myxococcota)平均基因组最大,GC含量最高;而基因组最小的海洋微生物为Patescibacteria,仅有0.80Mb,是粘细菌的1/5。此外我发现海洋细菌的GC 含量与基因组大小之间存在显著的三角形关系,在α-变形菌和放线菌中尤其明显。我们在这两种微生物中发现,当基因组大小较小时,GC含量随着基因组大小的增加而显著增加,但一旦GC含量接近70%后,随着基因组大小GC含量的不受影响,揭示了海洋微生物GC含量的变化规律(图11)。构建拥有海洋微生物基因组数据库,为进一步的海洋微生物多样性和功能多样性研究、活性物质挖掘和产业化应用等提供了重要的资源。
0 Q) A& ~) K+ i0 w4 i 图10. 海洋微生物宏基因组样本采样分布图11. 海洋微生物的基因组大小和GC含量特征比较▶ 预印文章信息:
& k& N$ ~2 m/ q7 v! t: }1 x https://biorxiv.org/content/10.1101/2021.10.26.465843v1 5 ~- V6 L5 K/ F. D# v
▶ 相关数据集信息: 3 P7 c* C* ~6 f( y' N( F
从生命之树中可以看到物种从单细胞到多细胞、从简单到复杂的神奇进化(图12)。现在已有针对不同群体的几个大型基因组计划,例如 VGP、B10K、Fish10K和10KP,但缺乏关于海洋微生物和软体动物的大型基因组计划。为此,青岛华大基因研究院与中外机构共同推出了M10K+和GOMP两大项目以填补这些空白。其目标是在十年内对10,000种软体动物和100,000个海洋宏基因组样本进行测序。未来,随着项目的推进,越来越多的物种将被存储在“数字信息”中。这些数字生命项目的最终完成,将大大加快生命科学的进步,推动生物产业的快速发展。青岛华大基因研究院欢迎更多对这些数据库感兴趣的研究人员加入一起挖掘这些数据。 # _6 B: Y: v; g8 ?6 A( V2 g
图12. 生命之树信息来源:“青岛华大”公众号
1 g! l- y# T7 J7 Z) K! ^2 c& }4 z: o6 l
5 w: C* a- j. S6 j$ E9 S+ v, g
1 _5 d0 L; ?4 g1 T
2 K. S. h( Z2 X. Z& Q: T, } |