DNA甲基化数据分析全流程

如题所述

2021-01-01 更新

和RNA-seq前期流程类似 -- 质控、去接头、比对参考基因组、排序

后期就是要提取甲基化位点,包括CpG、CHG、CHH三种context,H代表非G位点(A、C、T)。得到bedgraph文件后将个样本汇总为一个GR ( GenomicRanges )文件,便于后续分析

更多信息需要你自己查看帮助文档和 FastQC 官方手册.pdf

另外, 官方网页版 的有对每一模块进行详尽地解释,并对给出警告或错误的可能原因,针不戳!

trim_galore --clip_R1 5 --three_prime_clip_R1 2 --rrbs -o trimmed --basename SRX1635022 .fastq.gz

RNA-seq 数据分析完整流程

额,去接头好像还没写,改天一定。

质控 -- fastqc; 去接头 -- trim-galore

二、比对基因组

另一个软件是一个 BSMAP,目前用的是后者,两者关系也有很多人介绍,我也不知道。

这样就得到了BAM文件了

三、排序、去重

首先按照比对的基因组坐标进行排序

去除多重比对、重复、未比对上的reads

最后就得到了排序且去重的BAM文件了

四、提取甲基化信息

至此,所有CpG位点就全部被提取出来了。

五、将CpG位点保存为 GR 文件

由于测序是区分正负链的,而在分析的时候不区分,所以需要合并正负链的信息。
还需要将与基因组CpG位点不匹配的位点去除,因此需要load一个全基因组CpG位点文件。

细节我就不写了,只写主要操作,即将每个样本循环保存为GR文件放入一个list里面,最后再unlist一下,就变成了一个包含所有样本的所有CpG位点信息的GR对象了

温馨提示:答案为网友推荐,仅供参考
相似回答
大家正在搜