NGS中的错误总结（一）--利用重复减少NGS测序错误

如题所述

第1个回答 2022-06-09

这是一篇发表于《Nature Reviews Gentics》上的一篇综述，名称为《实验重复在减少NGS测序错误中的作用》。虽然NGS测序技术的进步使得测序的保真性提高，测序错误率下降。但是考虑到人基因组数以十亿的碱基，极低的错误率仍然会在变异检测过程中产生许多的错误。一些错误变异和真实的somatic突变、稀有突变十分类似，下游实验验证这些假阳性变异会花费巨大。 这篇文章主要描述了高通量实验中的错误来源，以及怎么利用重复来减少这些错误。

NGS错误可以来源于实验流程的各个步骤：样本处理、文库制备、测序及成像或拍照步骤。

重复类型包括，测序reads覆盖深度、技术重复（分析相同的样本，经历相同的处理步骤）、生物学重复（分析来自同一宿主的不同生物样本，经历相同的处理步骤）和跨平台重复。
目前减少测序错误的方法主要集中在后处理过滤策略上，包括过滤测序reads深度、碱基质量值、比对质量值、变异质量值、已知变异位点、链偏好性、等位基因不平衡性、序列上下文。这些后处理步骤综合考虑，可以提高最终变异检测的精度（FIG 1.b）

生信过滤参数可以通过技术重复、生物学重复和跨平台重复优化，提高流程的灵敏度和特异性。例如，每个人约有300万个变异位点，但是由于短序列的比对错误、嵌合体影响以及测序错误，变异软件可以检测出多达2000万个不同变异质量的变异。我们就可以利用重复的基因组序列进行测序，对变异阈值或者其他参数进行筛选，过滤假阳性变异。
如图2所示，类似于ROC曲线，可以根据重复实验选择出一致检出的突变位点（备选的真阳位点）和不一致检出的位点（备选的假阳位点），并按照优化参数（变异质量值，比对质量值）值进行排序，随着优化参数值的降低（降低筛选的严格程度），如果真阳变异和假阳变异在某一参数数值达到比较好的分离，就可以确定阈值。
图2中，X轴 "Fraction of discordant SNVs" 表示在特定阈值或以下的假阳性(不一致)变异数量占所有质量分数检测的假阳性(不一致)变异数量的比例。Y轴 "Fraction of concordant SNVs" 表示在特定阈值或以上的真阳性(一致)变异数量占所有质量分数检测的真阳性(一致)变异数量的比例。

[1] Robasky K , Lewis N E , Church G M . The role of replicates for error mitigation in next-generation sequencing[J]. Nature Reviews Genetics, 2014, 15(1):56-62.

相似回答

NGS中的错误总结(三)——Illumina平台错误率评估答：得出了以下结论: 1、尽管PCR这一步骤被传统认为是NGS中主要的错误来源,但在本研究中样品制备过程的index-PCR步骤没有对错误率造成影响;2、pre-phasing 效应在测序过程中持续存在;3、测序平均错误率为每碱基0.24±0.06%,序列突变的百分比为6.4±1.24%;4、在5 ' 和3 ' 端添加固定区域,例如引物结合位点,对突变率...

NGS中的错误总结(二)--福尔马林固定对测序的影响答：3、如Table1 所示,虽然FFPE样本中的Unaligned bases比例有所降低,但是表示测序错误率的Discrepancies参数依然比较接近。表明福尔马林固定造成的DNA损伤并没有导致超出测序平台背景的错误序列显著增加。注:Table1中 Discrepancies(差异)被定义为一条比对至参考基因组上read中,替换、插入、缺失碱基所占的比例,它被用于评估...

呼吸科ngs是什么答：1、基因突变，NGS的最基本应用。WES可能出错的地方：探针覆盖不全、测序深度不足、测序错误、重复序列、同源序列等。基本的技术准备：Sanger测序。虽然看起来NGS老牛气了，简直啥都能干。不过老话说得好，十八般武艺样样都通，难免样样稀松。WES一次能查出来几万个位点，总有一些不那么靠谱的，像测序深度...

群体遗传 | NGS结构变异检测原理答：由于read太短，不能在比对的时候横跨基因组重复区域；并且无法抓捕很多大的Insertion序列。为了避免测序序列短的缺点，我们可以通过三代长read测序来克服二代数据短带来的不便。但是长序列的引入，又需要考虑其错误高和测序价格相对较高的影响。在最理想的情况下，基于三代测序的从头组装应该是基因组结构性...

(一)概述:NGS测序在病原微生物检测中的应用答：为了克服传统方法的不足，下一代测序技术（Next-generation sequencing technology，NGS）在病原微生物检测中的应用具有非常大的优势，如：当然，NGS的缺点也是有的：即便有不足，但NGS的技术优势更为明显，在疑难微生物，以及难以培养甚至无法分离培养的少见菌属的鉴定，特别是新型病原微生物的暴发流行监测...

第二代测序技术(NGS)是什么,有什么优势答：NGS又叫高通量测序，当传统的癌症治疗不起作用，或者医生不能确定患者的癌症起源（原发灶）时，NGS（二代测序）可以帮助确定肿瘤中的基因突变，这些突变可能与某些针对特定变异的药物相匹配。NGS主要优势是通量大，可以得到海量的数据，高通量最小的数据量单位是G，而一代测序一次只能产生1K的数据。NGS对...

Duplicated Reads答：1 谈到NGS数据的duplicated reads(暂且翻译为“重复数据”),我们通常会直观地认为:duplicated reads是在NGS文库构建过程中,由于PCR过度扩增导致同一个模板DNA片段被反复测序多次,得到一模一样的reads。 2 但是这经不起推敲。仔细一想,就很困惑。 PCR不就是用来产生重复数据的吗?否则不叫PCR了。除了PCR-free的文库构...

NGS 数据过滤之 Trimmomatic 详细说明答：NGS 原始数据过滤对后续分析至关重要,去除一些无用的序列也可以提高后续分析的准确率和效率。Trimmomatic 是一个功能强大的数据过滤软件。 Trimmomatic 发表的文章至今已被引用了 2810 次,是一个广受欢迎的 Illumina 平台数据过滤工具。其他平台的数据例如 Iron torrent ,PGM 测序数据可以用 fastx_toolkit 、NGSQC tool...

大家正在搜

关于药物利用研究的说法中错误的是工作中犯的错误的总结利用别人的错误获取利益人都是在错误中不断的总结工作中的低级错误总结从错误中总结经验的名言利用错误资源的价值科技成果的错误利用火药被错误利用的后果