干貨請收藏! TCGA數(shù)據(jù)庫大匯總
一:簡介
由美國政府發(fā)起的癌癥和腫瘤基因圖譜(Cancer Genome Atlas,TCGA)計劃于2006年聯(lián)合啟動,目前已經(jīng)收錄了來自1萬多例病人的33種癌癥的數(shù)據(jù),2.5PB的數(shù)據(jù)量。
二:數(shù)據(jù)內(nèi)容和等級
TCGA收錄的數(shù)據(jù)主要包括:
Microsatellite Instability (MSI)
這些數(shù)據(jù)可分為三個級別:1) level-1: 原始的測序數(shù)據(jù)(fasta,fastq格式等較為原始和粗糙的數(shù)據(jù));2) level-2:比對好的bam文件;3) level-3:經(jīng)過處理及標準化的數(shù)據(jù)。其中level1/2為controlled-access,level-3有部分是controlled-access,這一類型的需要向TCGA申請使用權(quán)限,而大部分普通用戶只能訪問Level3的部分處理及標準化的數(shù)據(jù)。詳細的數(shù)據(jù)類型與其等級請查看頁面:
https://cancergenome.nih.gov/abouttcga/aboutdata/datalevelstypes
三: 數(shù)據(jù)下載
· 推薦:TCGA官網(wǎng)的data-portal portal.gdc.cancer.gov。
· 推薦:Firehose服務器:gdac.broadinstitute.org。平臺對TCGA的數(shù)據(jù)進行了整理并提供便捷的下載,但需要注意的是Firehose 收錄的數(shù)據(jù)并不是TCGA實時更新的數(shù)據(jù)。下載的數(shù)據(jù)適合后期的R語言處理分析。
四 :即搜即用的TCGA數(shù)據(jù)挖掘網(wǎng)站
l UALCAN轉(zhuǎn)錄組與生存數(shù)據(jù)庫
http://ualcan.path.uab.edu/index.html
UALCAN是用于分析癌癥轉(zhuǎn)錄組數(shù)據(jù)的界面友好型在線工具。UALCAN旨在:
a)輕松獲取公開的癌癥轉(zhuǎn)錄組數(shù)據(jù)(TCGA轉(zhuǎn)錄組測序數(shù)據(jù)),
b)允許用戶用TCGA數(shù)據(jù)挖掘生物標志物或?qū)Ω信d趣的潛在基因進行數(shù)據(jù)庫驗證,
c)提供達到文章發(fā)表級別的基因表達和基于基因表達的患者生存分析圖,
d)評估乳腺和前列腺癌分子亞型中的基因表達,
e)鏈接HPRD,GeneCards,Pubmed,TargetScan和人蛋白質(zhì)圖譜等數(shù)據(jù)庫,快速提供關(guān)于所選基因的附加信息。
l MethHC甲基化與表達數(shù)據(jù)庫
http://methhc.mbc.nctu.edu.tw/php/index.php
l MEXPRESS甲基化與表達數(shù)據(jù)庫
http://mexpress.be/
l OncoLnc生存分析數(shù)據(jù)庫
http://www.oncolnc.org/
整合了TCGA中的DNA甲基化,表達量及臨床數(shù)據(jù),主要用來探索甲基化,基因表達和臨床表型之間的關(guān)聯(lián)
l cBioPortal
http://www.cbioportal.org/index.do
整合和簡化了包括TCGA,ICGC以及GEO等多個癌癥基因組數(shù)據(jù)庫的內(nèi)容,可供下載。主要展示不同癌組織中基因的體細胞突變譜,拷貝數(shù)變異,mRNA,miRNA表達量變化,DNA甲基化變化以及蛋白質(zhì)表達變化的情況,并結(jié)合患者的臨床資料,繪制KM生存曲線。
l TANRIC:基于TCGA數(shù)據(jù)的lncRNA專用分析數(shù)據(jù)庫
http://ibl.mdanderson.org/tanric/_design/basic/index.html
收集20種癌癥的大量患者隊列的lncRNAs表達譜數(shù)據(jù),包括TCGA和多個獨立數(shù)據(jù)集(總共> 8000個樣品)。TANRIC可快速且直觀地在腫瘤類型內(nèi)或跨腫瘤類型中分析研究者感興趣的lncRNAs(已注釋的lncRNAs或任何用戶定義的lncRNAs)和其他分子數(shù)據(jù)。該工具有利于快速檢測具有潛在生物醫(yī)學標記功能的lncRNAs。
l GEPIA:強大的綜合分析能力