去年十月,Nucleic Acids Research刊登了一篇SSRome數(shù)據(jù)庫的文章,發(fā)布了一個(gè)整合了所有物種SSR在線數(shù)據(jù)資源的專業(yè)SSR數(shù)據(jù)庫(“終于等到你!“SSRome”,所有物種SSR標(biāo)記開發(fā)整合數(shù)據(jù)庫發(fā)布”)。今年十月,Nucleic Acids Research又帶來一個(gè)最新的SSR數(shù)據(jù)庫—MSDB,微衛(wèi)星綜合注釋數(shù)據(jù)庫,涉及的物種增加到了37262種,增加了近7倍,可謂SSRome的“加強(qiáng)版”!
發(fā)表時(shí)間:2019-10-10 影響因子:11.147
MSDB網(wǎng)址:https://data.ccmb.res.in/msdb/
網(wǎng)站首頁節(jié)選
微衛(wèi)星數(shù)據(jù)庫(MicroSatellite DataBase,MSDB)是簡單序列重復(fù)序列的集合。微衛(wèi)星是存在于所有基因組中的1-6個(gè)堿基基序的短串聯(lián)重復(fù)序列。人們研究它們作為分子標(biāo)記和法醫(yī)學(xué)的用途,最近研究它們的基因調(diào)節(jié)功能。此外,許多研究指出它們在進(jìn)化中的作用,因?yàn)樗鼈冊谖锓N內(nèi)和物種間的多態(tài)性比率很高。MSDB的目標(biāo)是成為獲取和可視化SSR相關(guān)信息的直接資源。
MSDB來自37680個(gè)基因組的40億多個(gè)微衛(wèi)星的集合,呈現(xiàn)在一個(gè)用戶友好的門戶網(wǎng)站上,便于進(jìn)行交互式分析和可視化。這是迄今為止訪問和分析多物種微衛(wèi)星數(shù)據(jù)的最全面、帶注釋、最新的數(shù)據(jù)庫。MSDB的特性使用戶能夠以可過濾和導(dǎo)出的表格的形式瀏覽數(shù)據(jù),也可以以交互式圖表的形式同時(shí)查看和比較多個(gè)物種的數(shù)據(jù)。它的模塊化和架構(gòu)允許新數(shù)據(jù)的無縫更新,特別是在它們的進(jìn)化和基因組組織和基因調(diào)控新作用的背景下,會(huì)使它成為研究微衛(wèi)星的強(qiáng)大工具和有用資源,
表1、MSDB與現(xiàn)有微衛(wèi)星數(shù)據(jù)庫的比較,基于(A)可獲得數(shù)據(jù)的物種數(shù)量,(B)數(shù)據(jù)庫的特征和功能
MSDB搭建方法
MSDB中所有基因組數(shù)據(jù)都是從NCBI的RefSeq和GenBank,以及UCSC中獲得的。序列信息以FASTA格式下載,基因注釋以GFF/GTF格式下載。如果相同裝配水平的多個(gè)基因組可用,則選擇最近發(fā)布的版本。除了序列之外,還記錄了該物種的其他信息,如系統(tǒng)發(fā)育分類。
在重復(fù)的識(shí)別方面,使用PERF鑒定來自基因組序列的微衛(wèi)星。PERF根據(jù)基序序列的周期性變化,將5356個(gè)1-6nt長的DNA基序的可能排列分為501個(gè)獨(dú)特的微衛(wèi)星類別。所有基序最小長度截止值為12 nt。PERF的輸出是一個(gè)TSV文件,它遵循BED格式規(guī)范來描述所識(shí)別的微型衛(wèi)星的位置和其他信息。除了FASTA輸入之外,還向PERF提供基因注釋,根據(jù)這些注釋確定每個(gè)微衛(wèi)星的最近基因以及到最近TSS(轉(zhuǎn)錄起始位點(diǎn))的距離。此外,微衛(wèi)星被分為外顯子、內(nèi)含子或基因間重復(fù)。
數(shù)據(jù)庫設(shè)計(jì)方面,MSDB的后端由MySQL支持,使用基于Python的Django框架作為中間件進(jìn)行查詢和訪問。重新設(shè)計(jì)的數(shù)據(jù)庫由兩個(gè)表組成;基因組表將所有關(guān)于可用基因組的信息存儲(chǔ)在數(shù)據(jù)庫中,所有微衛(wèi)星信息存儲(chǔ)在單個(gè)大重復(fù)表中。這提高了整個(gè)網(wǎng)絡(luò)界面的速度和響應(yīng)性,并最小化了服務(wù)器上的計(jì)算量。
MSDB的Web界面方面,其前端是一個(gè)單頁應(yīng)用程序,它是使用虛擬環(huán)境接口和元素界面構(gòu)建的。網(wǎng)站的整個(gè)狀態(tài)存儲(chǔ)在一個(gè)JavaScript對象中,該對象在網(wǎng)站的選項(xiàng)卡中有效。這可以確保網(wǎng)頁記住用戶選擇和其他設(shè)置,直到網(wǎng)站重新加載。微衛(wèi)星的基本信息是預(yù)先計(jì)算的,并存儲(chǔ)在特定物種的JSON文件中。
數(shù)據(jù)庫概述和功能
MSDB是一個(gè)4330912429個(gè)長度≥12 nt的完整SSR的集合,來自37680個(gè)基因組,分屬37 262種。MSDB的網(wǎng)絡(luò)應(yīng)用程序是為跨基因組交互式探索和分析SSR而設(shè)計(jì)的。主頁提供了關(guān)于MSDB的一般信息,并提供了訪問常用物種表格和微衛(wèi)星數(shù)據(jù)的快速鏈接。如下所述,MSDB的其他功能可通過網(wǎng)站的各種選項(xiàng)卡訪問。MSDB的主頁將所選物種的微衛(wèi)星信息總結(jié)為交互式表格和圖表(圖1)。默認(rèn)情況下,該頁面顯示了Homo sapiens微衛(wèi)星信息。
圖1、瀏覽顯示人類微衛(wèi)星信息的MSDB網(wǎng)頁
物種選擇:可以通過左側(cè)的物種選擇面板添加或更改物種(圖1,左側(cè))。用戶可以通過搜索欄按他們的學(xué)名或通用名搜索物種,也可以通過物種表過濾感興趣的物種。
模態(tài)視圖:大多數(shù)在標(biāo)題中有一個(gè)按鈕(圖1,紅色箭頭),用于切換MSDB的模態(tài)視圖,這讓用戶可以用有用的方式自定義圖。通過該模式,用戶可以獲得MSDB最獨(dú)特的特征之一--微衛(wèi)星數(shù)據(jù)的多物種特性比較。該模式還提供了基于物種基因組大小標(biāo)準(zhǔn)化數(shù)據(jù)的選項(xiàng),以便于不同大小基因組之間的數(shù)據(jù)比較。
表格視圖:點(diǎn)擊“探索重復(fù)”按鈕(圖1,黑色箭頭)打開一個(gè)新窗口,所選物種的微衛(wèi)星數(shù)據(jù)顯示為表格。頁面頂部的過濾面板允許用戶過濾顯示的各種屬性的數(shù)據(jù),如基因組位置、微衛(wèi)星基序(重復(fù)類)或長度、與特定基因的接近度、基因組上下文或與轉(zhuǎn)錄起始位點(diǎn)的距離??梢酝ㄟ^單擊列標(biāo)題對表進(jìn)行排序,并可以使用“導(dǎo)出表”按鈕將其導(dǎo)出為TSV文件。通過復(fù)選框選擇感興趣的重復(fù)序列,并點(diǎn)擊表格上方的“獲取序列”按鈕,可以獲得微衛(wèi)星的側(cè)翼序列。這將啟動(dòng)一個(gè)新窗口,顯示所有選定微衛(wèi)星的序列,默認(rèn)側(cè)翼大小為兩側(cè)100 bp。側(cè)翼大小是可定制的,序列格式可以在表格格式和FASTA格式之間切換。
數(shù)據(jù)下載:MSDB提供了一個(gè)專門的下載頁面來快速檢索所需基因組的微衛(wèi)星數(shù)據(jù)。下載頁面以類似于瀏覽頁面物種表的布局顯示基因組列表。對于每個(gè)基因組,提供了三個(gè)鏈接--啟動(dòng)基因組的表格視圖,將整個(gè)數(shù)據(jù)作為TSV文件下載,或者作為gzip壓縮的TSV文件下載。
幫助頁面:MSDB的幫助頁面包含一個(gè)廣泛的手冊,幫助新用戶理解網(wǎng)站的功能和布局。帶注釋的截圖指導(dǎo)用戶瀏覽網(wǎng)站。頁面的各個(gè)部分詳細(xì)描述了MSDB的每個(gè)圖表,并提供了數(shù)據(jù)是如何獲得或處理的信息。
關(guān)于天昊:
天昊生物長期從事基因及遺傳分析,可以提供包括SSR檢測在內(nèi)的多項(xiàng)基因檢測服務(wù)。天昊生物自主研發(fā)的基于二代測序技術(shù)的SSR檢測新方法--SSRseqTM,這種方法幾乎克服了現(xiàn)存所有電泳檢測方法的不足,尤其適合對多SSR位點(diǎn)、超高深度的分型,準(zhǔn)確度高,并且分辨率達(dá)到單堿基的水平。因此適合所有二倍體人類、動(dòng)植物、真核微生物,以及多倍體物種的SSR基因型分析。歡迎聯(lián)系我們具體咨詢!郵箱:techsupport@geneskies.com 電話:400-065-6886