分析流程MeDIP-seq(甲基化DNA免疫共沉淀測序)分析流

MeDIP-Seq(Methylated DNA Immunoprecipitation Sequencing測序是基于抗體富集原理進行測序的全基因組甲基化檢測技術,采用甲基化DNA免疫共沉淀技術,通過5'-甲基胞嘧啶抗體特異性富集基因組上出現甲基化的DNA片段,通過高通量測序在全基因組水平上進行高精度的CpG密集的高甲基化區域的研究。

 

利用MeDIP-Seq技術可以快速有效地尋找基因組上的甲基化區域,從而比較不同細胞、組織或疾病樣本間的DNA甲基化修飾模式的差異。

技術策略:

技術優勢:
精確度高:基因組位點定位精確性可達± 50bp。
可靠性高:直接對甲基化片段進行測序和定量,無交叉反應和背景噪音。
檢測范圍廣:全基因組范圍內甲基化區域研究。
高性價比:通過抗體富集高甲基化區域進行測序,有效降低測序費用。
 

 

技術路線:

MeDIP-seq生物信息學分析

 

將測序結果與參考基因組比對,比對上唯一位置的序列用于后續標準信息分析及個性化分析。信息分析流程如下:

生物信息分析流程圖,首先要對測序數據進行去接頭去低值處理,然后進行比對分析,采用唯一比對的reads進行下一步分析。之后對唯一比對reads在基因組,基因元件的分布進行分析。檢測到唯一比對的reads的富集區(Peak),并對Peak進行分析。最后進行差異Peak的分析。

 


1. 質控
測序后的原始序列需要進行質控,去污染、去接頭及去除低質量數據等過程。
數據產出統計信息

品名稱

read長度(bp)

reads數量

原始數據(Gb)

a

49

24,489,796

1.2

b

49

24,489,796

1.2

c

49

24,489,796

1.2

 

2. MeDIP-Seq序列與參考序列的比對

MeDIP-Seq序列與參考基因組進行比對,每條read最多容許2個堿基的錯配,生成最終比對結果文件 *.sop。

 

比對信息統計

樣品名稱

原始reads數量

比對reads

比對率(%)

有效鏈深度

唯一比對reads

唯一比對率(%)

a

24,489,796

21,449,285

87.58

2.82

12,199,426

49.81

b

24,489,796

21,759,594

88.85

2.86

12,328,166

50.34

c

24,489,796

21,979,358

89.75

2.89

12,193,301

49.79

 

比對率=比對reads/原始reads數量,有效鏈深度=比對bases/基因組參考序列大小,唯一比對率=唯一比對reads/原始reads數量

3. MeDIP-Seq數據的全基因組分布趨勢
3.1 MeDIP-seq 測序 reads 在全基因組上的覆蓋深度
計算全基因組上每一個堿基的覆蓋深度,得到不同覆蓋深度下的堿基百分比,即不同覆蓋深度下的堿基對應基因組的覆蓋度。


覆蓋深度:特定位點被測序 reads 所覆蓋的次數。例如某一個位點上的覆蓋深度為 10X,則表明這個位點被測序 reads 覆蓋了 10 次。而對于特定的 DNA 區域,或者全基因組范圍,則可以計算平均覆蓋深度。

 

 

基因組覆蓋度:符合特定條件的堿基數所能覆蓋的全基因組堿基數的比例。下圖中橫軸表示測序深度,縱軸表示不低于這一特定測序深度的基因組覆蓋度。

3.2 MeDIP-seq 測序 reads 在 CpG 位點上的覆蓋深度
MeDIP-seq 測序readsCpG位點上的覆蓋深度計算全基因組上每一個CpGWatson鏈,Crick鏈,雙鏈)的覆蓋深度,得到不同覆蓋深度下CpG位點的 覆蓋度,即一定覆蓋深度以上的CpG位點在MeDIP-seq所測得的全部CpG位點中所占比例。
3.2 MeDIP-seq 測序 reads 在 CpG 位點上的覆蓋深度
MeDIP-seq 測序readsCpG位點上的覆蓋深度計算全基因組上每一個CpGWatson鏈,Crick鏈,雙鏈)的覆蓋深度,得到不同覆蓋深度下CpG位點的 覆蓋度,即一定覆蓋深度以上的CpG位點在MeDIP-seq所測得的全部CpG位點中所占比例。

reads在不同基因功能元件上的分布

reads 在重復區域的分布情況

 

3.4 MeDIP-seq 測序 reads 在不同 GC 含量區域中的分布
200bp大小的窗口對基因組進行掃描,計算MeDIP-Seq序列在不同GC含量的窗口的分布情況,可以反映出測序數據在不同GC含量區域的富集性分布特征。
下圖中橫軸代表不同GC含量區域,縱軸代表特定GC含量區域的reads總數占所有可比對reads總數的比例。

4. 統計 MeDIP-seq 數據富集區域 ( Peak ) 的信息
對 MeDIP-seq 序列進行 Peak 掃描,并進行相關統計分析。
4.1 Peak 掃描
全基因組范圍掃描尋找Peak區域,得到Peak在基因組上的位置信息。

Peak信息統計

樣品名稱

Peak 數量

Peak平均長度

Peak長度中位數

Peak總長度

Peak覆蓋度

a

41,554

1,237.80

1,108

51,435,436

13.81%

b

43,020

1,200.41

1,065

51,641,544

13.87%

c

43,358

1,251.26

1,109

54,252,026

14.57%

 

4.2 尋找 Peak 相關基因
根據Peak掃描的結果,尋找Peak相關基因。
4.3 統計Peak在不同基因功能元件上的分布
分別統計Peakupstream2k,first exon,first intron,internal exons,internal introns,last exon,downstream2k7個基因功能元件上的個數分布和覆蓋度分布。
下圖中橫軸表示各個功能元件區域,縱軸表示特定功能元件所包含的peak個數。

下圖中橫軸表示各個功能元件區域,縱軸表示特定功能元件區域所包含的peak在該區域的覆蓋度(即覆蓋堿基數與該區域堿基總數的比值)。

 


將每個基因元件按長度平均分成10份,以曲線圖的形式反映每一個功能元件區域的 peak覆蓋度變化趨勢。

5. 基于 Peak 的多樣品間差異性分析
5.1分析兩個樣品間的 peak 相關差異基因
基于兩個樣本的MeDIP測序數據,針對各基因功能元件區域的Peak覆蓋度做差異分析,找到具有差異的基因。
篩選條件為:p≤0.05,兩個樣本在相同基因元件內都有覆蓋,且覆蓋度的差異在 倍以上。下述表格中的數值表示差異基因個數。

# of genes

A vs B

upstream2k

833

first exon

65

First intron

559

Internal exons

517

Internal introns

78

Last exon

220

downstream2k

731

5.2 對兩個樣品間的差異基因進行GO功能富集分析及pathway功能分析
Peak相關差異基因所具有的功能聚類,代表兩個樣品在特定生物學功能上具有與DNA 甲基化修飾相關的差異性。下圖為差異基因的GO功能分析結果。橫軸代表GO功能分類項,左縱軸代表與GO相關的基因的比例,右縱軸代表與GO相關基因的數 量,每一個特定功能分類項中均列出兩個樣品在此功能分類下的分布情況。
圖中所標downup,是將sample1sample2進行比較后所得到的內容,sample2覆 蓋度高于sample1的基因即為up-methylated,反之則為down-methylated。

 

6. 個性化信息分析
案例分析:
MeDIP-Seq發現種子發育過程中重復元件廣泛的去甲基化是基因印記的基礎
在植物中,基因印記現象往往發生在胚乳中。研究人員以兩個擬南芥品種Col- glLer各自的胚和胚乳為材料,利用medIP測序的手段對全基因組的甲基化譜進行研究。發現伴隨著胚乳的發育以及胚乳特異的一些基因的表達發生了大 規模甲基化的變化。胚乳中重復元件發生了廣泛的去甲基化。并且,通過將胚乳中甲基化程度降低的區域與胚乳表達偏好性(preferential expression in endosperm)關聯起來作為候選印記基因的方式,尋找到了新的印記基因。所有的結果說明植物中印記的發生來源于在基因調控元件附近插入重復元件的甲 基化以及之后的正向選擇的原因。

胚與胚乳中甲基化狀況
原文:Extensive Demethylation of Repetitive Elements During Seed Development Underlies Gene Imprinting, Science, 200

 

 

注册彩金送娱乐平台

掃描二維碼分享到微信