數據庫挖掘篇-circRNA

RNA界的后起之秀
circRNA   

從小RNA干擾到miRNA,從miRNA到lncRNA,從lncRNA到環狀,我們對生命現象本質的探索從來就不曾停止。circRNA作為RNA界的后起之秀,最近幾年被研究者們大力追捧。大部分的環狀RNA是由外顯子序列構成,在不同的物種中具有保守性,同時存在組織及不同發育階段的表達特異性。由于環狀RNA對核酸酶不敏感,所以比線性RNA更為穩定,這使得環狀RNA在作為新型臨床診斷標記物的開發應用上具有明顯優勢。如此保守、穩定又特異表達的RNA,讓研究者愛愛愛不完!

 

作為RNA界一顆冉冉升起的新星,circRNA必然有它雄厚的后援力量,各式各樣的數據庫層出不窮,八卦的我今天就和大家一探究竟吧!


一、circBase[1] 網址://www.circbase.org/。一個通過收集和整合已經發布的circRNA數據構建的數據庫。目前該數據庫收集包括以下6個物種的circRNA信息:人 (hg19)、小鼠(mm9) 、秀麗線蟲(ce6)、黑腹果蠅 (dm3)、矛尾魚 (latCha1)、腔棘魚 (latCha1)。

 

該數據庫的使用方法及作用

在這個搜索框中輸入要搜索的內容,可輸入的內容有:circBase標識符(例如 mmu_circ_0000010)、refseq轉錄本ID(NM_027671),基因名稱(Pvt1),genomic coordinates (基因組位置的輸入格式和UCSC的一樣:chr:start-end,如chrII:123456-7891011)或Gene Ontology term identifiers。搜索不區分大小寫。

使用list search可以搜索多個circRNA。在Organism中選好物種,在list中輸入circRNA的名字或者與circRNA相關的基因名即可。


使用table browser通過設定一組條件來檢索一組數據集(用法類似UCSC)。

使用blat可以通過一段fasta序列來和數據庫中的circRNA序列比對,從而找到對應的circRNA,類似于NCBI的blast。

在download中可以下載各物種中的circRNA數據,如果發現自己測序得到的circRNA不在這里面,那有可能就是新發現的circRNA啦!并且circBase ID cross-references??樘峁┝薱ircRNA ID與circRNA name之間的對應關系。據我觀察,circRNA name數字為6位,circRNA ID為7位。二者很像,千萬別混淆了!

二、CircInteractome[2] 網址:https://circinteractome.nia.nih.gov/。該數據庫預測了已知的109個RNA結合蛋白數據集與circbase中的circRNA的結合位點,并利用Targetscan軟件預測了miRNAs與circRNA的潛在結合位點。
該數據庫的使用方法及作用

通過Circular RNA???,我們可以根據circRNA或者基因名進行搜索,在Gene Symbol后面的對話框中輸入基因名,然后單擊circRNA Search,就能檢索到這個基因來源的各個circRNA,基因組的位置、長度等。

通過RBP on CircRNA???,我們可以輸入RBP或者circRNA的名字,比如RBP我們用HNRNPC,在輸出output type里面可以選擇excel file download也可以選擇web,然后單擊RNA-binding Protein Search,就能看到預測到的與HNRNPC結合的circRNA。

通過miRNA Target Sites???,我們可以在右側輸入框中輸入circRNA的名字或miRNA名字,比如我們輸入circRNA:hsa_circ_0000234,然后單擊miRNA target search,就可以看到預測到的miRNA了。

通過Divergent Primers???,我們可以在右側輸入框中輸入circRNA的名字,比如我
們輸入circRNA:hsa_circ_0000234,然后單擊Divergent Primers search,就可以對感興趣的circRNA設計引物了。

通過siRNA Design???,我們可以在右側輸入框中輸入circRNA的名字,比如我們輸入circRNA:hsa_circ_0000234,然后單擊siRNA search,就可以對感興趣的circRNA設計siRNA序列了。

功能是不是很強大,趕緊收藏吧~~

 

 

三、Circ2Traits[3] 網址://gyanxet-beta.com/circdb/(個人親測,經常打不開,需要翻墻)。是一個收集與人類疾病或性狀潛在關聯的circRNA數據庫。該數據庫通過預測miRNAs和人類的蛋白質編碼基因、長鏈非編碼基因及環狀RNA間的相互作用關系,構建了相互作用網絡,并對miRNAs-circRNA相互作用組中的蛋白編碼基因進行了GO富集分析;此外,將與疾病相關的SNPs位點定位到circRNA基因座上,并鑒定了環狀RNAs上的Ago相互作用位點。

該數據庫的使用方法

不知道為什么該數據庫的首頁即使翻墻也打不開,只有下載頁面,不過這也沒關系,我們可以通過下載該數據庫的原始文件,通過疾病名稱關鍵詞或circRNA名字,找到疾病相關的circRNA,同時找到相關的miRNA和編碼蛋白基因等,從而構建疾病相關circRNA-miRNA-target網絡。

通過下載該原始文件,我們可以通過檢索感興趣的疾病,將與疾病相關的SNPs位點定位到circRNA基因座上,并鑒定環狀RNAs上的Ago相互作用位點。


   四、circRNADb[4] 網址://reprod.njmu.edu.cn/circrnadb。首個匯總可編碼蛋白的環狀RNA的數據庫(瓦特??!circRNA不是非編碼RNA嗎?這個跨界RNA又顛覆了我的認知)。共收集了32914條人類外顯子環狀RNA記錄,每條記錄都包括基因組位置信息,RNA編輯情況,所對應的基因組序列,IRES序列元件,預測的ORF以及相關的參考文獻。作者發現了有16328條環狀RNA包含了編碼超過100個氨基酸的ORF,其中7170種環狀RNA存在IRES序列元件,基本符合翻譯蛋白的特征。

備注:IRES是internal ribosome entry site的簡寫,是一種具備募集核糖體并實現核糖體組裝和后續閱讀框翻譯蛋白的RNA調控元件。ORF是Open Reading fr ame的簡寫,指的是對應于蛋白氨基酸序列的密碼子序列,從ATG其實密碼子開始,到終止密碼子結束。值得一提的是,不是每個ORF都有機會翻譯出蛋白質的,還需要有上游的核糖體募集組裝以及一些翻譯調控元件的存在才可以,IRES就是一類特殊的翻譯調控元件。

該數據庫的使用方法

沒錯,這么高大上的數據庫檢索就是這么簡單粗暴!通過基因名稱(Gene symbol),PubMed ID及細胞或組織類型三種檢索途徑,滿足不同客戶的需求。


這里以ABCA1為例,檢索得到15個相關circRNA。這里選擇hsa_circ_27359進行說明。

首先介紹了具體的單個環狀RNA記錄的基本信息,包含了所對應基因的ID號,基因組位置,鏈長度,基因名稱,組織和細胞來源信息等。



其次介紹了單個環狀RNA的具體信息,包含了該環狀RNA的外顯子序列和信息,RNA剪接序列長度,環狀RNA的序列信息,IRES和ORF對應信息,預測多肽的基本特征,對應的疾病信息及參考文獻。

 

 

好了,今天的數據庫介紹就到這里,總之,目前大多數circRNA都是作為非編碼RNA,以RNA的形式調控下游基因表達:或作為競爭性內源RNA(ceRNA)結合miRNA,阻斷miRNA 對靶基因的抑制作用,或直接結合蛋白,阻止蛋白行使功能,產生生物學效應。當然挑戰我們認知的事情總是會發生,《Molecular Cell》上的一篇關于circ-ZNF609在肌發生過程中通過翻譯蛋白調控的報道[5],讓我們大開眼界。于是circRNADb 數據庫無疑將成為circRNA編碼蛋白研究的一大利器!


參考文獻:

Gla?ar P, Papavasileiou P, Rajewsky N. circBase: a database for circular RNAs.[J]. Rna-a Publication of the Rna Society, 2014, 20(11):1666-1670.

Dudekula D B, Panda A C, Grammatikakis I, et al. CircInteractome: A web tool for exploring circular RNAs and their interacting proteins and microRNAs[J]. Rna Biology, 2016, 13(1):34-42.

Ghosal S, Das S, Sen R, et al. Circ2Traits: a comprehensive database for circular RNA potentially associated with disease and traits[J]. Frontiers in Genetics, 2013, 4(283):283.

Chen X, Ping H, Tao Z, et al. circRNADb: A comprehensive database for human circular RNAs with protein-coding annotations[J]. Sci Rep, 2016, 6:34985.

Legnini I , Di Timoteo G , Rossi F , et al. Circ-ZNF609 Is a Circular RNA that Can Be Translated and Functions in Myogenesis[J]. Molecular Cell, 2017, 66(1):22-37.e9.

 

 
 

 

 


 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 
注册彩金送娱乐平台

掃描二維碼分享到微信