摘要: RNA-seq方法大整合
RNA-seq是轉(zhuǎn)錄組研究的一項重要技術(shù)方法,自從它誕生以來,已經(jīng)發(fā)展了上百種分析工具。人們往往更加熱衷于對新的分析工具的開發(fā),而忽視了對已有工具的系統(tǒng)性整合。近期在NC上發(fā)表了一篇通過對RNA-seq廣譜性分析文章,獲得對轉(zhuǎn)錄組數(shù)據(jù)更加全面的認識。
期刊名:Nature Communications 發(fā)表時間: 2017年7月 影響因子: 12.124
RNA-seq技術(shù)的廣泛應(yīng)用為轉(zhuǎn)錄組研究迎來了一個新時代。根據(jù)研究內(nèi)容的方向,精度、速度和成本要求不同,科研人員需要對包括采取何種具體測序方法流程、樣品類型、所需的分析結(jié)果,以及基因組研究現(xiàn)狀和計算數(shù)據(jù)處理可用資源等內(nèi)容進行權(quán)衡。因為涉及的問題復(fù)雜多樣,如何找到一種最佳的工作流程,在成本和性能要求基礎(chǔ)上,通過對RNA-seq分析中涉及到的各個不同環(huán)節(jié)進行最優(yōu)選擇,便成為是至關(guān)重要的問題。
為了解決上述問題,研究者提出了一個綜合性RNA-seq方案 — RNA-Cocktail法,這種方法分析了一系列RNA-seq工作流程,除了分析RNA表達情況之外,研究者還對RNA變異識別、RNA編輯和融合檢測方法進行了評估。他們利用39個分析工具,對生殖系、癌癥和干細胞的15個樣本數(shù)據(jù)集進行了120個組合的490項分析,實現(xiàn)了工作流程的更高精度化,提供了更多生物學(xué)相關(guān)預(yù)測。流程代碼下載網(wǎng)址:http://bioinform.github.io/rnacocktail/。
RNA-seq數(shù)據(jù)集來源:
RNA-seq分析設(shè)計方案:
圖1、RNA-Cocktail分析設(shè)計方案
用于比較的分析軟件列表:
基于有參序列的轉(zhuǎn)錄本鑒定:
圖2、不同序列比對策略性能比較
研究者比較了TopHat、STAR14和 HISAT2三種最常用的拼接軟件,最終從整體的比較結(jié)果看,HISAT2比STAR14和TopHat分別快了大約2.5倍和100倍(圖2)。
之后,研究者又比較了Cufflinks和StringTie這兩個常用的基于比對的轉(zhuǎn)錄組工具,結(jié)果發(fā)現(xiàn)雖然Cufflinks在基因?qū)用娴臋z測要比StringTie靈敏一些,但是StringTie比Cufflinks多預(yù)測50–200% 的轉(zhuǎn)錄本,并且比Cufflinks分析速度快約60倍。
De novo 轉(zhuǎn)錄本組裝:
當缺少參考基因組或者轉(zhuǎn)錄組數(shù)據(jù)時,測序reads的de novo組裝可以被用來構(gòu)建轉(zhuǎn)錄本。本研究分析了三種廣泛應(yīng)用的工具:Trinity、Oases和SOAPdenovo-Trans。對RNA-seq數(shù)據(jù)的分析結(jié)果發(fā)現(xiàn),Oases在所有樣本中,具有最高的N10到N50值,表明它具有發(fā)現(xiàn)長轉(zhuǎn)錄本的優(yōu)勢(圖3)。在對ExN50的測試中,Oases同樣具有更有效的捕捉低表達基因的能力。而考慮到較低內(nèi)存配置及計算需求時,SOAPdenovo-Trans則是最為高效的方法。
圖3、不同de novo轉(zhuǎn)錄本組裝技術(shù)性能比較
差異表達分析:
RNA-seq的一個重要目標就是鑒定不同樣本和條件下基因表達差異情況,人們開發(fā)出多種檢測方法,比如DESeq2、limma、edgeR、Cuffdiff、Ballgown和sleuth等。這些工具用于檢測SEQC樣品中的1001個表達差異基因的性能差異,結(jié)果表明,DESeq2較為明顯的優(yōu)于其他方法(圖4)。
圖4、不同基因表達差異工具性能比較
RNA-seq變異分析:
除了檢測差異表達信息之外,RNA-seq數(shù)據(jù)還可以用于鑒定基因組和轉(zhuǎn)錄組重要的變異情況。
圖5、不同變異識別(a-c)、RNA編輯(d-e)和RNA融合(f)檢測方法比較
在變異識別中,常用到SAMtools mpileup和GATK’s HaplotypeCaller工具。通過與其他環(huán)節(jié)多種工具的組合對比發(fā)現(xiàn),SAMtools和GATK具有較為類似的處理時間和性能。RNA編輯作為轉(zhuǎn)錄后調(diào)控的重要過程,可以影響序列功能及表達水平,本研究重點對GIREMI工具進行了分析。RNA-seq的另外一個重要應(yīng)用就是對融合基因的檢測,比較常用工具JAFFA、 STAR-Fusion、TopHat-Fusion、FusionCatcher和SOAPfuse,以及長片段工具IDP-fusion和Iso-Seq的結(jié)果發(fā)現(xiàn),F(xiàn)usionCatcher和IDP fusion表現(xiàn)出更高的靈敏性和準確性(圖5)。
高準確性工作流程—RNA-Cocktail流程:
圖6、RNA-Cocktail流程圖
綜合上述工具比較分析結(jié)果,研究者對各個環(huán)節(jié)表現(xiàn)更好的工具進行整合,提出了RNA-seq分析高準確性工作流程—RNA-Cocktail(圖6)在數(shù)據(jù)驗證后發(fā)現(xiàn),該流程優(yōu)于之前的其他工作流程,如Galaxy和Grape等方法。
天昊生物,RNA-seq技術(shù)的優(yōu)質(zhì)服務(wù)提供商!我們通過對RNA-seq各個實驗及生信分析環(huán)節(jié)不斷優(yōu)化,為客戶提供更加準確、可靠及個性化的數(shù)據(jù)檢測和分析結(jié)果,為您的科學(xué)研究保駕護航!