隨著高通量測序技術的發(fā)展,越來越多的文章探討測序方法而不是傳統(tǒng)PAGE或毛細管電泳方法進行SSR分型的優(yōu)勢。今天就給大家推薦一篇剛發(fā)表的文章,相信會對您有所啟發(fā)。
題目:Fast Sequence-Based Microsatellite Genotyping Development Workflow
基于序列的微衛(wèi)星(SSR)基因分型快速開發(fā)流程
發(fā)表期刊:PeerJ 發(fā)表時間:2020-5-4 影響因子:2.35
研究內容速覽:
基于高通量測序技術的SSR基因分型(SSRseq),已被證明可以去除基于電泳方法的許多局限性,并改進對群體的遺傳多樣性和結構的推斷。本文展示了簡化的SSRseq開發(fā)流程,包括SSR開發(fā)、多重SSR標記擴增和測序以及自動化的生信數據分析。研究舉例說明了該方法在不同門(真菌、植物、昆蟲和魚類)物種中的應用。結果發(fā)現,依賴先前開發(fā)的SSR標記的分析并不是最佳方案,獲得可靠的基因座分型數目低。相比之下,全新的特殊引物設計方法,提供了高度多重的SSR分析,可以測序產生20-40個基因座的高質量基因型。這里強調了前期開發(fā)因素在進行有效SSRseq重要性。利用測序分析能夠快速產生出強大的基于多等位基因型的數據集,需要通過新的理論和分析框架來從多態(tài)性標記系統(tǒng)中提取更多有用信息。
研究背景
在高通量測序技術的時代,與勢頭越來越猛的SNP多態(tài)性基因分型相比,高通量測序技術在SSR基因分型方面的應用一直落后。傳統(tǒng)的基于毛細管電泳的SSR基因分型有幾個缺點:相似性(相同大小的等位基因具有潛在的不同序列)、耗時耗力的開發(fā)和基因分型、低通量、缺乏自動化和數據標準化等。而所有這些限制都是由于目前SSR基因分型依賴于毛細管電泳的擴增子片段大小來識別等位基因,如果SSR基因分型轉變?yōu)榛谛蛄械幕蚍中蛣t會不同。以前對毛細管電泳和基于序列的SSR基因分型(SSRseq)的直接比較證實SSRseq是一種可靠的方法?;谛蛄械腟SR基因分型優(yōu)于基于毛細管電泳的SSR基因分型,可以直接獲取等位基因序列揭示了額外的多態(tài)性,當僅使用等位基因大小來識別變異時,這些多態(tài)性仍然是隱藏的。因此,序列數據降低了等位基因的相似性,因為相同大小的等位基因可能包含不能轉化為大小變異的分子變異,如SNP多態(tài)性、不存在掩蓋重復數目的變異或存在兩個具有互補大小變異的相鄰SSR基序。因此,SSRseq提供了精確的遺傳多樣性估計和種群結構推斷(Darby et al., 2016; Bradbury et al., 2018; Neophytou et al., 2018; Viruel et al., 2018; Layton et al., 2020)。
更新SSR基因分型以適應現代技術仍然很重要。首先,生態(tài)學或進化生物學中的當前一些科學問題仍用十幾到上百的高度多態(tài)性多等位基因座位。第二,重復寡核苷酸基序數量的變化是一種獨特的多態(tài)性,具有特定的突變機制和速率,其本身對跨群體和跨基因組核苷酸替換的遺傳變異提供了必要補充。第三,越來越明顯的是,SSR多態(tài)性涉及許多生物學過程,如基因表達調控和表觀遺傳機制,以及更普遍的表型變異。因此,隨著時間的推移進和技術進步,在一段時間內,標記主導基因分型的偏好性在不斷演變,在高通量測序技術背景下,對任何類型標記多態(tài)性的檢測都是重要且應該優(yōu)先考慮。
迄今為止,人們已經探索了SSRseq的具體技術和分析,開發(fā)了幾種生物信息學方法,測試了不同的實驗方案,并在群體遺傳推斷中解釋分子變異的方法進行了比較。總之,這些研究探索了許多關于SSRseq相對于傳統(tǒng)方法的技術和分析優(yōu)勢的問題。
在這里,研究者開發(fā)了一個應用于非模型物種的SSRseq綜合流程分析,并將這一工作流程應用于五個類群物種,它們在已經獲得的基因組數據量上存在顯著差異。通過比較多種可能的開發(fā)方案,包括傳統(tǒng)上在毛細管測序儀上對已經優(yōu)化的SSR分析進行測序,優(yōu)化已經開發(fā)的SSR周圍的引物,以及從一系列可用的基因組資源或從新生成的沒有現有基因組資源物種的低覆蓋率隨機基因組序列中重新開發(fā)SSR?;谝郧霸陂_發(fā)高度多重SSR基因分型方案方面的經驗,本研究提出了一種簡化的方法,并證明了其在具有廣泛遺傳和進化特征的物種群體中的應用。研究者應用了一個SSR序列數據分析管線來產生單倍型數據,說明在測序等位基因中檢測到的所有多態(tài)性,通過廣泛的基因分型雙盲重復來驗證,以估計SSRseq錯誤率。結論表明高效和強大的基于多態(tài)性單倍型的基因分型方法易于開發(fā)和應用。
研究方法
研究物種、SSRseq開發(fā)策略和DNA提取
本研究選擇物種、SSRseq開發(fā)策略和DNA提取相關信息如表1所示。采用以前開發(fā)的SSR、SSR引物重新設計,或者從各種基因組資源中重新開發(fā)。
表1、本研究所用物種的SSRseq開發(fā)策略和DNA提取相關信息。
SSR的從頭開發(fā)及引物重新設計
利用前人開發(fā)的QDD管線對(i)參考基因組序列,(ii)一組低覆蓋率隨機序列或(iii)已經表征SSR基因座的序列進行提取分析(表2),從一些低復雜性等有問題的序列中鑒定出高質量序列,并在SSR兩側設計引物對(圖1)。QDD管線以默認參數運行,引物最佳大小設定為25 bp(最小21 bp,最大26 bp),最佳退火溫度設定為68℃(最小60℃,最大75℃),同一對引物之間的最大差異為10℃,GC最佳百分比為50%(最小40%,最大60%)。此外,PCR產物大小設置在120到200 bp之間,以便與廣泛的測序平臺兼容,并產生可用于分析降解或低量DNA樣品的基因分型分析。QDD分析產生了大量具有設計引物對的候選基因座,從中可以選擇有限數量的基因座(圖1)。除了Quercus sp.,當有數百到數千個候選SSR時,參考Meglécz et al.在2014年的建議,使用幾個質量標準從中選擇60個SSR用于進一步測試,包括:通過從單體而非共有序列中選擇SSR,對擴增成功可能性增加的引物對進行優(yōu)先排序,選擇單一重復而非多個基序序列,在引物和重復基序之間顯示至少20 bp,側翼區(qū)域顯示高度復雜性(例如,沒有微小衛(wèi)星(minisatellite),側翼區(qū)域沒有其他SSR,側翼區(qū)域或引物沒有同聚物)。此外,我們進一步選擇具有最高重復數的SSR,以增加選擇多態(tài)性位點的概率,避免可能形成發(fā)夾的基序,如at重復,并在可能時包括多種二、三和四核苷酸重復。
表2、SSRseq基因分型的測試方案摘要。
圖1、SSRseq標記優(yōu)化或開發(fā)工作流程。
引物修飾和簡單擴增試驗
根據Ion Torrent和Illumina測序平臺要求設計添加了Tag的引物(表2),使用Primer Pooler軟件進行引物二聚體形成分析。顯示deltaG 低于-6 kcal/mol的引物對很可能形成二聚體,導致不良的多重PCR擴增。對于參與重要相互作用的基因座,選擇備選引物,或者在沒有備選引物的情況下,從候選名單中選擇另一個基因座。之后進行簡單擴增試驗,跑瓊脂糖凝膠選取清晰條帶引物進行后續(xù)實驗。
多重SSR擴增和測序文庫的構建
本研究分析了192至960個個體,包括46至156個重復個體,以檢查方法的可重復性(表2)。對于每個分組樣本,使用三輪多重PCR方法同時擴增所有基因座,并提高擴增的同質性,從而覆蓋基因座之間的序列。
生物信息學數據分析
使用FastQC對序列進行質控,使用cutadapt去除小于70 bp的讀序,使用pear組裝成contigs,最小重疊為50 bp,最大組裝序列長度為450 bp。
使用FDSTools管線對每個個體進行SSR分型,并獲得基因型相對應的序列(圖1)。之所以選擇這種分析工具,是因為它考慮了在分析序列中檢測到的任何類型的多態(tài)性(包括重復基序、SNP或indels),同時整合了特定的工具,可從擴增過程的滑移突變中檢測真正的等位基因。
對于每個基因座,使用以下標準按重要性順序確定最佳分析策略:估計等位基因誤差、缺失基因型數量和檢測到的等位基因數量。超過6%的等位基因誤差或超過50%的個體缺失數據的基因座被標記為失敗,并從進一步的檢查中移除。
基于序列信息(單倍型)鑒定的等位基因的數量與僅在所有分析的基因座中擴增子長度不同的等位基因的數量進行比較,以評估通過使用序列數據獲得的信息的增益和估計大小的同質性。我們通過對每個基因座的重復數、重復基序中的SNP和indels,以及單倍型之間不同側翼區(qū)的變異數進行計數,進一步研究了檢測到的多態(tài)性的性質。
實驗結果展示
利用先前開發(fā)的SSR的基于序列的基因分型
從S. salar先前開發(fā)的SSR使用基因座的多重組合進行基因型分析,發(fā)現可靠基因座的基因型數量較少,總成功率在39%到47%之間,可靠基因座的數量在7到10之間(表2)。此外,生成的基因型數據集的質量相對較低,缺失數據率和等位基因誤差分別高于10%和1%(圖2)。在Ion Torrent PGM平臺上的序列獲得最低的基因型數據質量,而盡管在Illumina MiSeq平臺上對每個個體每個測序基因座產生的的平均覆蓋率低2.3倍,但是卻獲得了更高的基因分型質量,具有更低的缺失數據和等位基因錯誤率(圖2,表2)。Ion Torrent平臺的最低性能是由于同聚物片段周圍虛假插入-缺失相關的較高測序錯誤率,這導致了測序讀序的浪費,噪聲的增加。因此選擇Illumina MiSeq測序平臺用于其他物種的后續(xù)分析。
圖2、先前開發(fā)的微衛(wèi)星的SSRsq開發(fā)結果。S. salar中一個由23個SSR組成新的多重序列,分別用 (a) Ion Torrent PGM測序平臺,(b)Illumina MiSeq測序平臺,和(c) 由15個SSR組成的用Illumina MiSeq測序平臺的常規(guī)測序結果。對整個序列的所有多態(tài)性(Full length),或者僅關注重復基序內的多態(tài)性(Repeat focused),或者針對每個基因座的最佳策略的組合(Combined)的可靠基因座的數量、等位基因的總數、缺失數據和等位基因錯誤率進行分析。
從頭開發(fā)的SSR序列基因分型
相比之下,從頭開發(fā)SSR的總成功率在67%到86%不等(表2)。鑒于通常從高通量測序或參考基因組序列中鑒定出的大量候選SSR,我們能夠篩選出多達60個新的基因座,并將其中的大多數(從28個到60個)在單個多重PCR反應中進行擴增(表2)。
全序列與重復基序多態(tài)性比較分析
將分析集中在重復的基序上稍微增加了可靠基因座的數量,并且傾向于產生稍微更少的缺失數據和等位基因錯誤(圖3)。然而,側翼序列中可能存在的許多多態(tài)性沒有被解釋。事實上,分析在PCR反應引物之間檢測到的所有多態(tài)性導致每個基因座的平均等位基因數更高,代價是丟失數據和等位基因錯誤率稍高(圖3)。有趣的是,17%的基因座可以用全長或重復聚焦的分析方法進行可靠的分析。因此,通過為每個位點選擇最佳方法來組合分析策略,得到優(yōu)化的數據集(圖3)。即使對于具有可靠基因型的基因座,不管所選擇的分析方法如何,選擇產生最佳質量數據(就等位基因數量、缺失數據和錯誤率而言)的基因座會提高數據集質量。這種組合策略導致最高數量的基因座和等位基因,同時將缺失數據和等位基因錯誤率保持在最低水平(圖3)。
圖3、基于新優(yōu)化的SSR的SSRseq開發(fā)結果。
用Illumina MiSeq測序平臺對(a) Quercus sp.,(b) Alosa sp.,(c) A. ostoyae, (d) M. variegatipes進行檢測,對整個序列的所有多態(tài)性(Full length),或者僅關注重復基序內的多態(tài)性(Repeat focused),或者針對每個基因座的最佳策略的組合(Combined)的可靠基因座的數量、等位基因的總數、缺失數據和等位基因錯誤率進行分析。
跨物種檢測到的多態(tài)性類型
雖然大多數常見的群體遺傳學應用不需要描述區(qū)分等位基因的多態(tài)性的性質,但是序列數據的主要優(yōu)勢(除了分析更多數量的基因座之外)是能夠識別不轉化為大小變異的等位基因變異,即使用經典電泳方法時檢測到的唯一變異 。除了重復數目的變異,研究者還在側翼序列或重復基序本身中鑒定了許多SNP和indels (圖4,表3)。
表3、檢測到多態(tài)性。
圖4、每個物種組中每個樣品在重復基序或側翼序列中檢測到的多態(tài)性類型的比例。
研究結論:
本研究提出了一個綜合的方法來加速非模式物種的SSRseq協議的開發(fā),并提供了一些提高開發(fā)效率的建議。兩個最重要的建議是優(yōu)化標記選擇和引物設計,以實現有效的多重聚合酶鏈反應擴增和序列可解釋性,并使用重復個體來評估產生的基因型數據的質量。
本研究選擇Illumina的384個條形碼組合,因為研究者對20到300個位點進行分析時,發(fā)現它與MiSeq測序平臺的輸出非常吻合。然而,當研究單個物種中超過384個個體時,需要多次MiSeq運行或定制的雙重索引策略,可在Ion Torrent PGM運行(使用了960種條形碼組合),或之前使用MiSeq平臺的研究(960種和1,024種條形碼組合。
除了靶向SSR外,SSRseq表征序列中存在的SNP和indel的能力代表了一個新的機會,可以產生經驗數據來應用現有的理論和統(tǒng)計框架,將連鎖多態(tài)性與不同的突變特征結合起來。依賴于比通過自動化生物信息學管線的傳統(tǒng)毛細管電泳基因分型更容易標準化的序列數據的基因分型將促進實驗室之間的數據共享和增加基因分型數據庫,這對野生動物監(jiān)測的應用至關重要。
最后,多物種并行開發(fā)的便利性使得這些方法便于開發(fā)用于比較種群和群落遺傳學研究的強大的多位點數據集,并進一步研究自然種群中SSR變異的功能含義和適應潛力。
關于天昊:
天昊生物具有多年SSR分子標記檢測及分析經驗,如果您有類似SSR網站搭建及數據分析需求,歡迎聯系我們具體咨詢!
此外,天昊生物可以提供SSR分子標記的一代毛細管電泳檢測,并且基于二代高通量測序技術開發(fā)出SSRseqTM專利技術, 可以根據客戶項目需求,提供不同數量樣本和位點的高性價比SSR檢測服務。
基于二代測序平臺的SSRseqTM專利技術
我們期待成為您SSR分型檢測的優(yōu)質服務合作伙伴,歡迎聯系我們具體咨詢!
電話:15611255286(微信同號)
公司網址:http://www.geneskybiotech.com/index.html
往期精選文章:
Frontiers in Plant Science |利用SSR標記對南歐樺樹種群的遺傳分析
實驗停了,發(fā)文章不能停--搭建一個SSR數據庫,發(fā)篇3.793分文章
祝賀天昊生物SSRseq數據分析軟件獲得國家計算機軟件著作權證書及順利上線
SSR基因分型在人類瘧原蟲多樣性、種群結構和進化起源研究中的應用
SSR研究進展 11月集錦(三)
SSR研究進展 11月集錦(二)
SSR研究進展 11月集錦(一)
生物遺傳多樣性類研究進展10月集錦(一)
【昊閱讀】SSR-seq:與傳統(tǒng)方法相比,利用下一代測序進行SSR基因分型可以獲得更高水平多態(tài)性