追问科学家如何还原和挖掘海洋微生物基因数据?

导读: ·GOMC数据库为未来的研究提供了丰富的资源,包括开发新型生物技术产品、探索微生物的生态功能、研究微生物与环境变化的关系、开发新的疾病治疗方法等。 基因是生命的“源代码”

丝瓜网小编提示,记得把"追问科学家如何还原和挖掘海洋微生物基因数据?"分享给大家!

·GOMC数据库为未来的研究提供了丰富的资源,包括开发新型生物技术产品、探索微生物的生态功能、研究微生物与环境变化的关系、开发新的疾病治疗方法等。

基因是生命的“源代码”,其中不仅蕴藏着自然演化的奥秘,也囊括了数之不尽的生物工程资源。如何获取、分析和应用基因数据,是现代生物学的核心议题之一。

近日,一支研究团队对目前已公开的海洋微生物宏基因组数据进行分析和深度挖掘,构建了迄今为止最为完整的海洋微生物基因数据库,并从其中发现了数种具有应用潜力的基因资源,包括新型基因编辑工具、抗菌肽和PET塑料降解酶等。该研究于2024年9月4日发表在《自然》(Nature)杂志上,团队成员来自华大生命科学研究院、山东大学、英国东安格利亚大学、中国海洋大学、厦门大学、丹麦哥本哈根大学等机构。

海洋覆盖了地球表面约71%的面积,据估计,其中超90%的物种还未被发现。细菌、古菌、病毒等微生物是海洋世界中数量最多的“居民”,1毫升海水就有约100万个,是海洋生态的重要组成部分。

从海水中取样并对其中的遗传物质进行测序,所得到的所有不加区分的基因就是“宏基因组”(Metagenomics)。从这些庞大的基因数据中提取有用的信息对于研究人员来说是很大的挑战。

在该研究中,研究团队历时五年,通过对目前已公开的接近240 Tb海洋微生物宏基因组数据进行重分析,构建了拥有超4.31万个海洋微生物基因组和24.58亿个基因序列的海洋微生物组数据库The Global Ocean Microbiome Catalogue(GOMC),包含从南极到北极、从近海到深远海、从表层海洋到万米超深渊等多样化的海洋生态系统。其中,2万多个微生物是潜在新发现物种,近1万个微生物为在深海等独特生境中首次发现。

GOMC数据集概览。图a为样本地理分布;图b是样本污染与完成度情况;图c是各大数据库与新恢复物种的重叠情况;图d是各种微生物基因组数量分布。图片来源:《自然》杂志

通过数据挖掘,研究团队发现了海洋微生物基因组大小变化、遗传免疫机制演化等生态规律,以及大量能够应用在基因编辑、抗生素以及塑料降解等领域的基因资源。

科学家如何从基因碎片中还原完整基因序列?从基因层面观察,海洋生态有什么神奇的规律?在基因数据中能找到哪些对医疗、环境有用的资源?为回答这些问题,近日,澎湃科技采访了该研究的通讯作者、华大生命科学研究院青岛分院院长范广益博士。

化零为整:宏基因组组装技术

微生物群落非常复杂,由于大部分微生物无法在实验室中培养,获取环境样本中所有基因信息的宏基因组技术变得十分有效。该技术的难点之一在于,如何从这些混合的基因信息中还原单个物种的基因组。

范广益告诉澎湃科技,该研究中使用了宏基因组组装分箱技术,将环境样本测序得到的大量基因短序列进行拼接、分箱聚类,从而获得完整的基因组。这些基因组被称为“宏基因组组装基因组”(Metagenome-assembled genomes, MAGs)。

宏基因组组装涉及到大量的对比和计算。基因是DNA或RNA大分子内一段核苷酸序列,经过测序仪测序后,科学家们能得到序列的一段“碎片”,被称为“读长”(reads)。通过对这些“碎片”之间重叠部分的比较进而将它们连接起来,又能得到更长的一段连续序列,被称为“重叠群”(contigs)。

接下来,科学家们需要通过分拆比对等方式,通过重叠群序列中表现出的模式来判断这些序列是否属于一个基因组,这个过程被形象地称为“分箱”(binning)。同样的序列被归到一个“箱子”中,对应一个MAG。

近年来随着高通量测序技术的发展,宏基因组数据迅速增加,该组装技术成为了探索新物种、挖掘基因数据的有力工具。范广益提到,在该研究中,研究团队整合目前已经公开的大量海洋微生物宏基因组数据库,涵盖了从极地到赤道、从海洋表层到深海的广泛海洋环境,极大地拓宽了对海洋微生物多样性的理解。

尽管宏基因组组装技术已经带来了很多新发现,其产物的生物学真实性仍然有所争议。MAGs的真实性不仅受到样本被其它物质污染的影响,也会因为难以验证而受到质疑,尤其是在对应物种尚未被发现的情况下。

对此,范广益认为,随着测序技术的进步和生物信息分析方法的完善,MAGs的准确性和生物学真实性得到了显著提高。在该研究构建的数据库中,研究团队对宏基因组数据进行了质量控制,并通过物种系统发育分析等方法提高分箱的准确性。他说,这样得来的MAGs能够代表海洋微生物的真实基因组,为理解微生物群落结构和功能提供了重要信息。

基因组大小和免疫分布:基因视角下的海洋微生物群落

通过对重构的基因组数据进行分析,该研究发现了一些有趣且重要的海洋微生物生态规律。

在生物世界中,生物的复杂度并不与基因组大小显著相关,如无恒变形虫是一种单细胞原生动物,它的基因组由6700亿对碱基对组成,而人类仅有30亿对。基因组大小到底受哪些因素影响,又有什么功能,是一个重要的问题。

范广益说,基因组大小是微生物适应环境变化的重要指标之一,它与微生物的代谢复杂性、生存策略和进化历史紧密相关。该研究发现,在海洋环境中,大基因组细菌通常存在于环境条件复杂且资源丰富的生境中。

研究者们推测,这些细菌的基因组中可能包含更多的基因,赋予它们更多样化的代谢途径和生理功能,从而能够适应多变的海洋环境。然而,大基因组也给细菌带来了复制和维持上的挑战。

除了基因大小之外,研究还发现海洋微生物免疫系统中的不同免疫策略的分布存在一种微妙的平衡关系。

跟人类一样,一些细菌和古菌等海洋微生物也受到病毒的威胁,能杀灭细菌的抗生素也是它们的“宿敌”。针对病毒,很多微生物体内有一种CRISPR-Cas系统,其中CRISPR(规律间隔成簇短回文重复序列)是一段重复的基因,能够包含并识别曾经攻击过该细菌的病毒DNA并将其摧毁,Cas则是与这些基因相关的负责剪切与摧毁的蛋白质。而面对“剧毒”的抗生素,微生物们则演化出抗生素抗性基因(ARGs),赋予微生物对一种或多种抗生素的抗性。

该研究发现,不同生态环境中,微生物对这两种免疫策略的选择具有特定的倾向性,如热液喷口(海底的一种特殊地质结构)等高温环境中的微生物中倾向有更多的CRISPR-Cas系统;同时,两种策略的分布似乎相互制约,微生物体内CRISPR-Cas系统增多时,ARGs的数量就会相对较少,二者在整体分布中保持某种平衡。

范广益提到,这种平衡可能反映了微生物在维持其遗传稳定性与适应环境压力(如抗生素选择压力)之间的复杂相互作用。CRISPR-Cas系统可能在一定程度上限制了ARGs的水平传播,但同时为微生物提供外源核酸入侵的保护。此外,CRISPR-Cas系统本身也可能受到微生物基因组结构、环境条件、宿主-病原体相互作用等多种因素的影响。

“这一发现强调了在理解微生物遗传系统如何适应和抵抗环境中的挑战时,需要考虑多种因素和复杂的生态动态。这也为进一步研究微生物抗性基因的传播机制、开发新型抗菌策略以及保护微生物资源提供了重要的科学依据。”他说。

基因编辑、抗生素、塑料分解:发掘基因“宝藏”

基因是生命的“中心”:DNA所携带的遗传信息经RNA转录、翻译合成蛋白质,最终构成各种组织结构来实现生命的机能。基因中蕴藏着无数能够被应用到医疗、环境、工业等领域的资源。在该研究中,研究者们通过对GOMC数据库进行挖掘,发现了多个“宝藏”基因。

研究团队首先识别出多个新型CRISPR-Cas9系统。作为微生物体内的一种能够切割外源入侵DNA的免疫机制,科学家发现这套系统能够被用来进行基因编辑,在药物开发、基因治疗等领域有巨大价值,相关研究更是在2020年获得了诺贝尔化学奖。

范广益提到,这次发现的新型CRISPR-Cas9系统具备不同的识别特异性、靶向效率和编辑精准度,能够帮助优化和定制现有的基因编辑工具,以提高在特定生物体系中的编辑效率和精度。另外,海洋微生物在特殊环境中的适应性可能赋予了其CRISPR-Cas系统独特的稳定性和活性,这些特性对于开发能够在特定环境条件下工作的基因编辑工具尤为重要。

该研究还通过对生物合成基因簇(BGCs,基因组中相邻且参与化合物合成的一组基因)进行预测,鉴定出了数种抗菌肽(AMPs)。抗菌肽是一类小分子肽,它们通过破坏细菌细胞膜或干扰细胞内关键生物过程来抑制或杀死病原微生物。范广益说,GOMC中鉴定出的新抗菌肽在序列和结构上与已知的抗菌肽存在显著差异,这表明它们可能具有独特的作用机制或针对特定微生物群体的活性。

随着人类对抗生素的广泛使用,细菌的耐药性已经成为新的威胁,新型抗生素亟待开发。范广益告诉澎湃科技,新发现的抗菌肽显示出对多种细菌的抑制效果,包括一些对传统抗生素具有抗性的菌株,为开发新的广谱抗生素提供了可能。

这项研究还发现了多种对PET塑料具有显著活性的水解酶。PET塑料全称“聚对苯二甲酸乙二醇酯”,是应用最广泛的塑料材料之一,常被用在饮料瓶、食品包装上。PET水解酶是一类能够催化PET塑料降解的生物催化剂,能够特异性地识别并催化PET塑料中的酯键水解,将塑料分解成较小的分子,从而启动塑料的生物降解过程,对于解决全球塑料污染问题具有重要的意义。

范广益表示,从数据库中发现的这些水解酶展现出了嗜盐和热稳定性,这些独特的生物学特性极有可能是它们在深海等恶劣生境中生存和发挥活性的关键因素。这也意味着它们在面对工业应用中常见的苛刻条件时仍可能保持高效催化活性。

“我们对筛选出的PETases进行了详细的生化特性分析。结果显示,它们在特定条件下对PET薄膜的降解效率非常高。例如,研究中提到的dsPETase05水解酶在3天内可以将PET膜大部分降解,降解率达到83%,这比已知的IsPETase活性高出了44倍。”范广益说。

“GOMC数据库为未来的研究提供了丰富的资源,包括开发新型生物技术产品、探索微生物的生态功能、研究微生物与环境变化的关系、开发新的疾病治疗方法等。”范广益说道。

丝瓜网 crfgs.com