Home Blog Oncology 利用基因组测序和分析技术深入了解微生物组

利用基因组测序和分析技术深入了解微生物组

利用基因组测序和分析技术深入了解微生物组

基因组测序技术的进展大大有助于我们了解微生物组及其对宿主的影响。在这篇博文中,我们探索了一些常用的测序方法,在基因组和转录组水平上,研究微生物组的复杂性。

微生物组

微生物组调节多种重要的生理过程,从代谢物的产生到免疫系统的功能。许多重要的研究已经将微生物组的破坏与影响多种器官系统的疾病联系起来。

图1.微生物组失调与影响不同器官系统的疾病之间的关系

直到最近,微生物组的研究还严重依赖于培养依赖的方法,这自然将分析局限于可培养的微生物,尽管已知许多微生物是“不可培养的”。最近,新型测序技术的可用性使研究人员能够在不依赖培养的情况下识别、分类和量化已知和新型微生物。

用于微生物组的基因组分析的两种主要方法是 16S 核糖体 RNA(rRNA)扩增子测序(靶向)和鸟枪法宏基因组学(全基因组)。

16S 测序

16S rRNA 基因的靶向测序是一种成熟的方法。该基因编码细菌和古生菌中转录机器复合物的关键成分,包含高度保守的遗传序列和在物种间表现出多样性的高变区。这些特征使 16S 成为微生物组分析的理想靶点,因为它们不仅允许对基因组材料进行普遍扩增,还允许在复杂样本中进行微生物识别。作为一种性价比较高的微生物组分析方法,特别适用于简单样本或对内容有一定预知的样本。

16S 工作流程和生物信息学分析

16S rRNA测序的基本工作流程如下:

  • 样本采集
  • DNA提取
  • 选定可变区的基于 PCR 的扩增
  • 测序
  • 数据分析

常见的测序平台包括那些产生大约 150-500 bp 的短读数据的平台(例如 Illumina 的 MiSeq、NextSeq 和 NovaSeq),以及近年来的长读长测序平台(稍后讨论)。

采用第三代测序(TGS)技术的全长 16S 测序

图2.短读和长读 16S rRNA 测序中常用的 DNA 区域

与第二代测序平台相比,TGS 技术(PacBio RS II/Sequel 和 Oxford Nanopore MinION)的主要优势在于,它们可以生成长读数据,轻松覆盖相对较小的 1.5 kb 16S rRNA 基因和所有高变区。冠科生物使用 PacBio RSII/Sequel 系统进行高保真读长测序,在此过程中,每个基因座被循环并重复读取,直到获取共有序列。 这被称为循环共识测序(CCS)模式,它保证产生的读长具有 99.9% 的高准确度。

图3.采用循环共识测序模式的HiFi测序(来源: Pacbio)

TGS平台克服了传统16S rRNA分析的局限性,因为它们仅读取16S rRNA基因上的部分区域,短读16S测序在物种鉴定中不那么灵敏且是有限的。已发表的研究已经证实了长读长测序在获得更好的分类分辨率方面的优势。例如,多项研究表明,对于微生物组分析中的物种和菌株水平鉴别,长读法比短读法具有更好的分辨率。例如,参见这此处此处此处。总体而言,高质量的长序列允许在基于序列的微生物分析中更好地区分密切相关的物种。

预处理

测序后,原始读数通过生物信息学管道进行预处理和分析。常见的管道包括使用子系统技术的宏基因组快速注释(MG-RAST)、微生物生态学定量洞察2(QIIME2)和 Mothur。

在全面分析之前预处理原始测序数据对于产生可靠和可重复的数据至关重要。这通常包括对数据完整性进行全面的QC检查,过滤低质量读数,并去除污染物,如测序接头和扩增子引物。嵌合序列(在PCR扩增步骤中错误连接的不同序列)也需要去除,因为它们可能导致微生物鉴别和多样性测量误差。如果不是由测序平台自动处理,多重信息分解也是必要的,其中条形码信息用于识别哪些序列来自哪些样本,从而可以将序列适当地分配回它们所源自的样本。

操作分类单元(OTU)/扩增子序列变体(ASV)鉴别

接下来,需要将序列转换为可用的特征进行系统分类。区分真正的核苷酸变化和测序误差是一个主要的挑战。不可能单独分析每个序列,因此开发了 OTU 和 ASV 来简化这一过程。

OTU 方法根据相似性将序列分成组或“区间”。通常,97% 的相似性阈值用于最佳的属或种分离。这种聚类可以是基于引用的(封闭引用)、无引用的(从头)或两者的组合(开放引用)。虽然使用参考序列数据在计算上更有效,但是依赖已知序列的数据库排除了识别新分类群的可能性。QIIME 和 Mothur 是实现OTUs用于 16S rRNA 分析的管道的实例。

OTU 有将类似物种合并为一个群体的风险,导致测量多样性的丧失。ASV 是一种较新的方法,通过计算每个精确序列的频率来解决这个问题。这通常被称为“去噪”,它依赖于为每次运行生成一个误差模型,以识别由于误差或真实的生物变化而预期的序列。由于单个核苷酸的差异可以定义为单独的 ASV,因此可以实现更精确和更精细的数据分辨率。包含 ASV 的工具包括 DADA2、DeBlur 和 UNOISE3。在之前的研究中,DADA2 在处理全长 16S rRNA 测序方面的理想效果已得到验证。

分类分配

任何微生物组测序实验的主要目标是确定样本中的微生物群组成。参考数据库包括 SILVA、Greengenes 和核糖体数据库项目,它们与分类算法一起使用,以找到 OTU 或 ASV 的最佳匹配。

下游分析:多样性、差异丰度和功能预测

除了分类,对样本内部和样本之间微生物多样性的实际测量也为微生物组的组成提供了重要见解。α多样性是样本中微生物的平衡,包括检测到的不同微生物的总数及其分布。β多样性是样本之间微生物群的变化(例如,处理与对照)。

许多统计测试可以识别样本之间不同的特定分类群。这些从简单的t检验到更先进的统计模型,例如最初为RNA-Seq数据构建的统计模型(DESeq2、edgeR)、基于对数比的方法(ANCOM、ALDEx2、DR/差分排序)、基于零膨胀高斯的替代混合模型(宏基因组测序)和基于平衡的(比率)方法。有如此多的方法可用,要知道哪种方法会提供最可靠的结果是一个挑战。最近的一项研究比较了14种不同方法的性能,建议研究人员使用多种工具来充分利用他们的数据。

仅仅知道样品的微生物组成不能提供关于微生物群落功能的信息。虽然这不能用单个标记基因直接评估,但许多复杂的工具(如 PICRUSt、Tax4Fun)可以推断出宏基因组(样品中所有微生物的基因组),并使用这些信息从基因家族和途径的数据库中预测功能潜力。

16S扩增子测序的利弊

这种测序无疑是捕捉微生物组多样性的最具成本效益的方法,因此是具有大量样本的项目的绝佳选择。有强大的生物信息学管道和参考数据库可用,使分析更加简单。然而,与 PCR 扩增相关的测序偏差和通过短读法仅评估可变区的子集会降低分类分辨率。全长 16S rRNA 测序提供的更高分辨率允许更高水平的系统分类,但比短读 16S 测序方法更昂贵。此外,16S rRNA 测序也只涵盖细菌和古生菌,因此需要更广泛了解的研究人员在设计实验时需要考虑这一点。

鸟枪法宏基因组测序技术

宏基因组测序技术为 16S 扩增子分析的标记基因方法提供了一种替代方法。它通过对样本中的所有遗传物质进行测序,更全面地涵盖了微生物组。这种非靶向方法也被称为“鸟枪法测序”。16S 测序的一个主要好处是能够对包括病毒在内的更广泛的微生物谱进行分析。尽管这取决于数据库和参考基因组的可用性和质量,它还可以提供菌株水平的分辨率。

图4.用于微生物组分析的 16S 扩增子测序技术与宏基因组测序技术

鸟枪法宏基因组数据的生物信息学分析

宏基因组测序技术产生的大量数据使生物信息学分析比 16S rRNA 研究更加复杂。宏基因组学数据的分析可以分为两大类:基于读取的和基因组解析的。

在前者中,原始数据被预处理并映射到参考基因组进行分类分配。分类可以采用区域化方法,根据序列组成或与基因组数据库的相似性(例如,来自 Kraken2 和 Centrifuge 的算法)基于读数分组。虽然相对简单,但这是计算密集型的,并且严重依赖于参考基因组的可用性和质量。或者,分类分配可以依赖于单个或多个标记基因(例如 MetaPhlAn3)。将读数与包含特定分类群或门的信息性基因序列的数据库进行比较,这些基因序列可以确定到菌株水平。此外,广泛使用的基于标记基因的管道 HUMAnN 最近发布了第三次迭代,它可以准确地输出微生物群落可能参与的基因家族和途径是否存在以及丰度的估计。

基因组解析的宏基因组学分析将读数组装成草图或接近完整的微生物基因组。这些重建的宏基因组用于分析,而不是依赖于测序分离生物产生的参考基因组的基于读取的分析。

基因组解析分析的典型工作流程包括以下步骤:

  • 数据预处理(包括去除污染主机读取的步骤)
  • 从头组装
  • 将来自同一生物体的序列组聚类的基因组区域化
  • 使用宏基因组组装基因组(MAG)进行分类、功能、途径分析或其他下游分析

在基因组解析宏基因组分析中产生的宏基因组组装基因组(MAG)的帮助下,研究人员已经成功识别了人类
小鼠
中不可培养的微生物。此外,通过注释 MAGs 中的所有基因,研究人员可以使用公共蛋白质域、本体或代谢途径数据库(例如 GO、KEGG、CAZY 等)更直接地识别微生物组的功能、途径和代谢。此外,基因组解析分析还可以研究基因组中的顺式元件,如操纵子。

宏基因组测序技术的利弊

宏基因组测序技术相对于 16S rRNA 测序技术的主要优势在于它获得了关于整个基因组的信息。该技术具有较高的分类分辨率,可更直接进行功能分析,并鉴别新型/稀有物种。然而,数据的增加是有代价的。鸟枪法测序要昂贵得多,并且需要专门的生物信息学专业知识。对于希望检查少量样本但比扩增子测序更深入的研究人员来说,这是一个很好的选择。

宏转录组测序技术

基因组测序技术构成了大多数已发表的微生物组研究。然而,DNA 水平的研究无法确定哪些微生物积极参与了生物过程。宏转录组测序技术为评估微生物组如何在基因表达水平上响应环境变化提供了强有力的机会。通过使用 RNA-Seq,研究人员可以弥合这一差距,并获得全面的基因表达谱,从而直接了解活微生物的功能活动。

宏转录组测序技术与鸟枪法宏基因组测序技术有许多相似之处,但需要考虑其他事项。值得注意的是,大量核糖体RNA的存在可以显著影响mRNA测序覆盖率。因此,这些污染物必须在样品制备过程中通过核糖去除来去除,或者在测序后分析过程中通过数字方式消除。

宏转录组学的生物信息学工作流程可分为基于读取(例如,MetaTrans)或基于组装(例如,SqueezeMeta)的方法。工作流程的选择取决于项目目标和高质量参考基因组的可用性。由于宏转录组学研究的主要目的是评估微生物活性,因此功能注释在分析中至关重要。有几种与转录数据兼容的基因注释工具,能够在通路水平上实现读数映射(例如,FMAP、DIAMOND、MetaCLADE)。此外,还开发了各种管道和软件来解决宏转录组数据的复杂性。例如,HUMAnN3管道准确概述了微生物群落中代谢通路存在与否、丰度和活性。类似地,MEGAN(MEtaGenome ANalyzer)简化了宏转录组数据的比较、分析和探索。此外,像 Rockhopper 和 Trinity 这样的工具有助于转录组的从头组装,在无参考基因组时提供分析途径。

尽管由于来自不同生物体的转录本和在相关但不同的生物体中存在共有基因而具有挑战性,但是微生物组的RNA水平测序已经成功地揭示了微生物特异性活性。此外,考虑到分析宏转录组数据的工具和算法的持续技术进步,宏转录组的未来似乎很有希望。有效利用这些新的工具将提高我们有效识别微生物组生物活性部分的能力。

结论

现代测序技术彻底改变了微生物组研究领域。这些技术提供了深入的分类学表征、功能预测或对复杂微生物群落中的活性进行更直接的评估。生物信息学分析、长读技术和测序成本降低的进步将确保新的发现成为可能,并推动该领域向前发展。

要了解我们全面的基因组学服务,包括微生物组测序,请访问我们的网站

您的微生物组测序项目需要帮助吗? 联系我们