發(fā)布時間:2017-10-24作者:諾為爾基因瀏覽次數(shù):4139
9月18日,中山大學(xué)中山眼科中心謝志、肖傳樂、謝尚潛,以及中山大學(xué)數(shù)據(jù)科學(xué)與計算機(jī)學(xué)院陳穎和克萊姆森大學(xué)羅峰等學(xué)者,在Nature Methods在線發(fā)表了三代基因組測序數(shù)據(jù)計算方法,文章題目為 “MECAT: fast mapping, error correction, de novo assembly tool for single-molecule sequencing reads”。這項合作研究的計算方法解決了該領(lǐng)域的關(guān)鍵技術(shù)難題。
以PacBio和Oxford Nanopore公司為代表的三代測序技術(shù)能夠產(chǎn)生遠(yuǎn)遠(yuǎn)長于二代測序技術(shù)的基因組序列讀長,并且實現(xiàn)在單分子水平進(jìn)行基因測序,在動植物的基因組組裝、基因組結(jié)構(gòu)變異,DNA修飾檢測、全長轉(zhuǎn)錄本測序中廣泛應(yīng)用。然而,三代測序數(shù)據(jù)高測序錯誤率(12-15%)給三代測序基因組數(shù)據(jù)分析帶來了巨大的挑戰(zhàn),尤其在長序列局部序列比對和序列錯誤堿基校正過程中消耗大量的計算時間和資源,嚴(yán)重影響了三代測序技術(shù)的應(yīng)用和發(fā)展。
針對三代測序基因組分析耗時的問題,項目負(fù)責(zé)人謝志和主要完成人肖傳樂等研究人員提出了基于全局種子投票打分的候選匹配序列評估方法,該方法可以大幅降低三代測序序列比對,校正和組裝的計算資源消耗,從而大幅提高計算效率;并將上述方法開發(fā)完成了三代測序組裝系統(tǒng)MECAT。
首先,為了減少局部序列比對的候選區(qū)域,MECAT建立了快速測量兩個序列編輯距離的序列差異因子和全局種子投票打分的計算模型。該模型中兩個序列全局種子得分與重疊長度成線性相關(guān)的重要特征,使兩序列重疊區(qū)域的長度可以通過種子全局得分進(jìn)行評估。全局種子得分模型不僅能獲得候選局部比對所需要兩序列的準(zhǔn)確起始比對位置,同時首次實現(xiàn)非局部序列比對的兩兩序列比對過程,從而大幅節(jié)約了三代測序兩兩比對的計算時間。目前,MECAT在人類基因組上的兩兩比對時間比目前主流軟件快17倍。
其次,在三代測序基因組組裝另一耗時的序列校正步驟中,MECAT通過優(yōu)選一定最高得分的候選匹配序列進(jìn)行局部序列比對,大幅降低進(jìn)入局部序列比對過程的候選序列數(shù)量,從而大幅提高三代測序序列校正時間。MECAT的序列校正速度是目前軟件的7-8倍。
總的來說,集成三代測序序列比對,校正和組裝為一體的MECAT系統(tǒng),與目前的三代測序計算軟件比具有明顯的優(yōu)勢,尤其是人類基因組的組裝速度是同類軟件(Canu和FALCON)17-23倍,并首次在單個服務(wù)器上實現(xiàn)了人類基因組組裝工作。MECAT大幅降低了三代測序計算硬件平臺要求,從而加速了三代測序的發(fā)展和應(yīng)用。
MECAT的研究和開發(fā)得到了中山大學(xué)中山眼科中心五個五計劃以及中山大學(xué)精準(zhǔn)醫(yī)學(xué)培育項目的支持。
參考資料:
MECAT: fast mapping, error correction, de novo assembly for single-molecule sequencing reads. doi:10.1038/nmeth.4432
MECAT系統(tǒng)下載地址:
https://github.com/xiaochuanle/MECAT