如何理解基因富集分析以及富集的意思?

如题所述

基因富集分析是分析基因表达信息的一种方法,富集是指将基因按照先验知识,也就是基因组注释信息进行分类。
人类有约30,000个基因,人与人之间的基因序列相似度高达99.9%,也就是说,人们相互之间仅有30个基因的差别,而正是这大约30个基因的差别,导致了我们长得不同,性格也不同。
举这样一个例子,我发现规律的作息与适当的运动让我智商变高了,我想知道让我智商变高了的基因是哪些?那么我取之前作息混乱,成天堆坐在电脑前的基因表达数据和智商提高了之后的表达数据直接对比进行分析是不是就可以了呢?这种方法也叫作单基因分析,这种方法的缺点包括:

基因表达谱数据固有噪音很高,当两组数据表达量差别不大时,很容易出现假阴性结果。(常用的表达谱测试方法包括microarray和mRNA-seq,各有利弊,前者前两年很火,后者现在比较流行。具体原理方法、优缺点wiki上介绍的很清楚。)

未考虑基因间相互作用,很难给出合理解释,当对比之后,我发现50个基因不一样,可是除此之外,我无法判断这50个基因有什么样的联系?是什么信号通路让我智商变高了?知其然而不知其所以然。

可重复性差,生物实验一般都要求至少重复三遍,那么第二次实验的时候,很有可能不是50个基因,谁多谁少根本说不清楚。

考虑到这些缺点,2005年提出了基于基因集定义的基因富集分析方法,很多人管单基因分析叫bottom-up,富集分析叫top-down。
首先要定义基因集(gene set),也就是基于我们的先验知识(基因组注释信息),将基因富集,可以想象成,用一堆代表基因功能的箱子(bin)把具有相同或相似功能的基因装起来,起到了降维的作用,当然,每个基因可能同时参与好几种功能,这种cross-talk我这里就不说了。
这样,得到这两组数据后,我们所分析的不是单个基因表达的差异,而是箱子与箱子之间的差异。比如我们发现,运动前后的主要差异集中在消化基因上面,那么我就有理由说,规律作息和适当运动让我消化变好、营养吸收充分进而智商提高(我编的,别信...)。由此,我们得到的数据更容易解释。

温馨提示:答案为网友推荐,仅供参考
第1个回答  2017-11-28

基因富集分析

·  研究基因表达的有如下工具:RNA-Seq,microarray, qRT-PCR等(欢迎补充)

·  RNA-Seq,microarray一般用在探索性阶段,qRT-PCR用于验证

·  RNA-Seq和microarray由于他们的实验方式不同,导致寻找差异表达基因的统计学方法也不同。其中microarray使用寡核苷酸作为探针进行杂交,基因表达量与亮度正相关,而亮度是一个连续型变量,因此大多认为结果是服从正态分布。而RNA-Seq的测序结果是一条条read,是一种离散抽样过程,因此认为是服从泊松分布。

·  ANOVA和简单线性模型都是广义线性模型的特殊情况。ANOVA是研究名义型解释变量和连续型解释变量的关系,简单线性模式是研究连续型解释变量和连续型解释变量的关系。而广义线性模式没特殊要求。

·  在3,4的背景下,microarray一般用t检验(两个条件),ANOVA分析(多个条件),最常用limma(线性模型)进行检验。RNA-Seq有许多基于count的R包,如DESeq,DESeq2,(基于负二向分布广义线性模型)

·  以上要求你每个条件都要有3个重复(目前投稿要求),你要是老板穷,一个重复都不给,那你去Google解决方案吧。

·  用R作差异表达分析大致分为以下几步:1)根据软件包要求导入数据;2)数据预处理,把那些只有0或1计数结果的基因去掉,提高效率。这一步还可以进行探索性数据分析;3)跑程序,得到结果;4)对结果进行可视化,看看基因聚类等结果,这一步不是必须的,但却是展示数据最好的手段了。

第2个回答  2017-11-28

1.Pathway功能分析及显著性判断  对差异表达基因进行Pathway功能分析,并计算Pvalue进行显著性判断,Pvalue越小,表明该pathway变化越显著,并可对每条Pathway通路图进行展示,同时在相应的位置标注差异表达基因。  2.Pathway中基因相关性分析  根据每两个基因共出现在同一pathway中的次数统计,绘制基因共相关点线图,进而得到不同pathway上基因的关联情况。在分析工具上点击“celldifferentiation”,在“TermInformation”中描述了细胞分化术语的基本信息,包括树形及与父结点、子节点关系。  对于未知基因名的序列,可以用序列直接检索GO数据库。点击AmiGO首页上方的“BLAST”,进入检索界面。在检索框输入氨基酸或核酸序列或上传序列文件,检索工具能自动识别并相应地选择BLASTP或BLASTX来与数据库中的序列进行比对。以大肠杆菌DNA聚合酶Ⅱ基因polB为例,“HighScoringGeneProducts”栏内显示基因产物的名称、物种信息、p值。

相似回答