NGS中的错误总结(一)--利用重复减少NGS测序错误

如题所述

第1个回答  2022-06-09

这是一篇发表于《Nature Reviews Gentics》上的一篇综述,名称为《实验重复在减少NGS测序错误中的作用》。虽然NGS测序技术的进步使得测序的保真性提高,测序错误率下降。但是考虑到人基因组数以十亿的碱基,极低的错误率仍然会在变异检测过程中产生许多的错误。一些错误变异和真实的somatic突变、稀有突变十分类似,下游实验验证这些假阳性变异会花费巨大。 这篇文章主要描述了高通量实验中的错误来源,以及怎么利用重复来减少这些错误。

NGS错误可以来源于实验流程的各个步骤:样本处理、文库制备、测序及成像或拍照步骤。

重复类型包括,测序reads覆盖深度、技术重复(分析相同的样本,经历相同的处理步骤)、生物学重复(分析来自同一宿主的不同生物样本,经历相同的处理步骤)和跨平台重复。
目前减少测序错误的方法主要集中在后处理过滤策略上,包括过滤测序reads深度、碱基质量值、比对质量值、变异质量值、已知变异位点、链偏好性、等位基因不平衡性、序列上下文。这些后处理步骤综合考虑,可以提高最终变异检测的精度(FIG 1.b)

生信过滤参数可以通过技术重复、生物学重复和跨平台重复优化,提高流程的灵敏度和特异性。例如,每个人约有300万个变异位点,但是由于短序列的比对错误、嵌合体影响以及测序错误,变异软件可以检测出多达2000万个不同变异质量的变异。我们就可以利用重复的基因组序列进行测序,对变异阈值或者其他参数进行筛选,过滤假阳性变异。
如图2所示,类似于ROC曲线,可以根据重复实验选择出一致检出的突变位点(备选的真阳位点)和不一致检出的位点(备选的假阳位点),并按照优化参数(变异质量值,比对质量值)值进行排序,随着优化参数值的降低(降低筛选的严格程度),如果真阳变异和假阳变异在某一参数数值达到比较好的分离,就可以确定阈值。
图2中,X轴 "Fraction of discordant SNVs" 表示在特定阈值或以下的假阳性(不一致)变异数量占所有质量分数检测的假阳性(不一致)变异数量的比例。Y轴 "Fraction of concordant SNVs" 表示在特定阈值或以上的真阳性(一致)变异数量占所有质量分数检测的真阳性(一致)变异数量的比例。

[1] Robasky K , Lewis N E , Church G M . The role of replicates for error mitigation in next-generation sequencing[J]. Nature Reviews Genetics, 2014, 15(1):56-62.

相似回答