Skip to content

COV2Var-SARS-CoV-2变异注释数据库

介绍

COV2Var是SARS-CoV-2遗传变异的功能注释数据库,该研究纳入了超过13,000,000个SARS-CoV-2基因组序列,以及与每个序列相关的关键背景信息(元数据)。这些基因组序列包括来自218个地理区域、35种不同宿主的2,735个病毒谱系。我们从SARS-CoV-2基因组序列中鉴定出了总共9,832个常见的突变。通过多种分析方法和工具, 从不同的角度评估了9,832个突变在SARS-CoV-2中的作用。COV2Var可在COV2Var-SARS-CoV-2变异注释数据库上访问。
新型冠状病毒(SARS-CoV-2)引发的COVID-19大流行造成了数百万人生命的丧失,并对全球经济产生了严重影响。每次SARS-CoV-2复制时,病毒的基因组都会发生新的突变。SARS-CoV-2基因组的突变导致了传播能力的增加、严重疾病结果、对免疫反应的逃避、临床表现的变化以及降低疫苗或治疗的效力。迄今为止,有多种资源提供了已检测到的突变列表,但缺乏对这些突变进行关键功能注释的研究。目前缺乏对突变位点与疾病严重程度、患者年龄、患者性别、跨物种传播、病毒免疫逃避、免疫反应水平、病毒传播能力、病毒蛋白结构、病毒蛋白功能和同时发生的突变等多个因素之间关系的研究。深入了解突变位点与这些因素之间的关系对于推进我们对SARS-CoV-2的了解以及制定有效的应对措施至关重要。

COV2Var数据库的构建步骤及主要分析功能如下:

  1. 数据收集:我们从全球禽流感数据共享计划(GISAID)数据库检索了SARS-CoV-2的序列,涵盖了从2019年12月至2023年2月收集的序列。我们应用过滤器选择具有完整基因组的序列,排除了那些覆盖率较低(>5%未定义核苷酸'N')的序列,并确保了完整的采集日期信息。此外,我们收集了与每个序列相关的元数据。我们使用Pango命名法对每个序列的SARS-CoV-2谱系进行变异分类。
  2. 突变位点鉴定:对于SARS-CoV-2基因组序列的突变分析,我们使用了微生物基因组突变追踪器(MicroGMT)软件,该软件使用SARS-CoV-2(Wuhan-Hu-1)的默认注释。MicroGMT以组装的基因组序列为输入,与参考序列进行比较,以检测和表征插入、删除和点突变。分析所使用的参考序列是SARS-CoV-2分离物Wuhan -Hu-1(GenBank访问号NC_045512.2)。我们分析中的所有核苷酸位置标签都基于与这个参考序列的比对。在我们的研究中,我们利用这个工具分析了广泛的13,344,494个SARS-CoV-2分离物的基因组序列。我们应用了过滤标准来识别更为普遍和具有生物学意义的突变,这些突变可能对病毒适应和生存优势产生潜在影响。过滤标准如下:(i) 突变在至少2735个病毒谱系(Pango谱系)中的频率>0.01,并且在该特定谱系内至少发生了两次; (ii) 突变必须存在于2735个谱系中的两个或更多谱系中。突变位点鉴定流程如下图A所示。
  3. 突变位点分析:针对每个突变位点,我们采用多种分析方法和工具进行分析,主要分析内容如下图B所示。

    COV2Var管道概览。(A)突变分析工作流程鉴定出9,832个常见突变。(B) 在9,832个常见突变中的主要分析内容。

数据库使用

读者可通过COV2Var-SARS-CoV-2变异注释数据库 访问COV2Var数据库。该网页共包含7个子页面。

COV2Var网站的界面和架构。

  1. Home页面为介绍页面,简要介绍了COV2Var数据库建立的目的,收集的数据量,数据分析流程,以及数据搜索和功能模块。在该页面,用户可通过search搜索对应的突变位点,也可以通过对应的功能模块检索对应的突变位点。
  2. Result页面展示了对应突变位点的全部分析结果。通过home界面搜索突变位点或者home界面模块浏览突变位点可以进入对应突变位点的结果页面。
  3. Download页面提供了所有的分析结果,用户可根据需求下载及使用。
  4. Help页面,提供了1个突变位点检索至其分析结果的例子。
  5. Landscape 页面提供数据的分析流程。Statistic页面展示了使用数据分布情况。

COV2Var的旨在识别SARS-CoV-2变体中的常见突变并评估它们的影响,为SARS-CoV-2变体中常见突变的深入功能注释提供宝贵的资源。

访问地址

访问地址:http://biomedbdc.wchscu.cn/COV2Var/

Reference

Feng Y, Yi J, Yang L, Wang Y, Wen J, Zhao W, Kim P, Zhou X. COV2Var, a function annotation database of SARS-CoV-2 genetic variation. Nucleic Acids Res. 2023 Oct 28:gkad958. doi: 10.1093/nar/gkad958. Epub ahead of print. PMID: 37897356.