最近,美國洛斯阿拉莫斯國家實驗室(LANL)的一個遺傳學(xué)小組和一國際財團聯(lián)合提出了一套旨在闡明可公開獲取的基因測序數(shù)據(jù)信息的質(zhì)量標(biāo)準(zhǔn)。新標(biāo)準(zhǔn)最終可使遺傳研究人員開發(fā)出更有效的疫苗,或有助于公共健康部門或安全人員更迅速地應(yīng)對潛在的公共衛(wèi)生突發(fā)事件。
在最新一期的《科學(xué)》雜志上,LANL遺傳學(xué)家帕特里克·錢恩和他的同事提出了6個基因組測序數(shù)據(jù)標(biāo)簽,可將基因測序數(shù)據(jù)按其完整性、準(zhǔn)確性以及由此帶來的可靠性進行歸類。這些標(biāo)簽可在公共數(shù)據(jù)庫中獲取,而目前使用的標(biāo)簽僅為兩個。此項成果的重要性在于,研究人員必須每天使用這樣的數(shù)據(jù),以對未知遺傳數(shù)據(jù)和已知生物體的遺傳數(shù)據(jù)進行相互參照,而有了這樣的新的分類標(biāo)準(zhǔn),數(shù)據(jù)的獲取與對比工作的效率將大大提高。
每個生物體的細胞內(nèi)都有DNA,由4個分子構(gòu)建模塊(或稱堿基對)組成,堿基對排成特定序列時就可構(gòu)成基因。這些基因序列可包含對生物體有益或有害的遺傳指令;蚪M研究人員編目了數(shù)以千計的基因數(shù)據(jù),并將其放在公眾數(shù)據(jù)庫中以供其他研究者使用。 然而,由于基因數(shù)據(jù)的復(fù)雜性,公共數(shù)據(jù)庫中的遺傳信息范圍從粗略到精致一概都有。過去,這些基因數(shù)據(jù)常被歸類為“草圖”和“成品”兩大類,給基因數(shù)據(jù)的準(zhǔn)確性留下了太多的不確定性。
錢恩表示,在過去幾年里,基因測序技術(shù)已取得重大進步,公眾可獲得的基因數(shù)據(jù)已呈爆炸性增長,每天產(chǎn)生的堿基對序列數(shù)據(jù)量要比過去幾年產(chǎn)生的數(shù)據(jù)量還要多幾十億次。不同的測序技術(shù)具有不同的精確度。一個序列中的高度不確定性可能會引導(dǎo)研究人員走向一條耗時長達一年甚至數(shù)年的錯誤道路。因此,有必要建立一個標(biāo)準(zhǔn),為研究人員提供對遺傳測序數(shù)據(jù)質(zhì)量的明確評估。
錢恩聯(lián)合了大大小小的數(shù)個基因組測序中心,如美國能源部聯(lián)合基因組研究所、桑格研究所、人類微生物群系項目Jumpstart聯(lián)盟測序中心、密歇根州立大學(xué)以及安大略省癌癥研究所等,共同提議將現(xiàn)有的測序數(shù)據(jù)分類從兩大類充實為6大類。這6個標(biāo)準(zhǔn)涵蓋了從代表公眾提交最低要求的“標(biāo)準(zhǔn)草圖序列”到代表最高標(biāo)準(zhǔn)的“完成序列”,而“完成序列”的驗收標(biāo)準(zhǔn)是每10萬個堿基對中最多只能包含一個錯誤。
LANL基因科學(xué)小組負責(zé)人、聯(lián)合基因組研究所LANL研究中心主任克里斯·戴特表示,該項研究的目的是為了讓所有主要的基因組中心和基因組研究小組都能用上符合其需要的分類基因組測序數(shù)據(jù)。而為了盡可能保證基因組序列的完整性,一些較小的研究中心也可采用這個分類等級來建立和提交其研究成果,以幫助其他科學(xué)家了解既已完成的工作。(馮衛(wèi)東)
Copyright ©1999-2024 chinanews.com. All Rights Reserved