科技日報(bào)記者 張佳欣
2003年,科學(xué)家首次對人類基因組進(jìn)行測序,揭示了構(gòu)成我們生命“藍(lán)圖”的全部DNA序列。盡管98%的基因組不直接編碼蛋白質(zhì),它們?nèi)陨羁逃绊懼虻恼{(diào)控和細(xì)胞功能。這些非編碼區(qū)域曾被視為“垃圾DNA”,但如今被認(rèn)為可能蘊(yùn)藏著重要的生物學(xué)秘密,就像是基因界的“暗物質(zhì)”。
今年6月25日,“深度思維”公司宣布,他們開發(fā)出一款名為AlphaGenome(阿爾法基因組)的人工智能(AI)模型,有望在破譯這一“暗物質(zhì)”上取得突破。《自然》雜志報(bào)道稱,這一“從序列到功能”的模型能預(yù)測DNA中微小變化會(huì)對一系列分子過程產(chǎn)生的影響,為解碼人類基因調(diào)控機(jī)制提供了新路徑。
解釋DNA序列的“一體化”工具
深度思維公司在2020年推出的“阿爾法折疊2”(AlphaFold 2),成功破解了一個(gè)困擾科學(xué)界數(shù)十年的難題:如何根據(jù)蛋白質(zhì)的氨基酸序列,準(zhǔn)確預(yù)測其三維結(jié)構(gòu)。這一突破不僅改變了結(jié)構(gòu)生物學(xué)研究方式,也推動(dòng)了新藥研發(fā)的進(jìn)程。
相比之下,要理解DNA序列的功能則更加復(fù)雜,因?yàn)樗幌竦鞍踪|(zhì)那樣擁有一個(gè)確定的“正確答案”。這些功能主要體現(xiàn)在DNA對基因表達(dá)的調(diào)控上,比如決定基因什么時(shí)候開啟或關(guān)閉,在哪些細(xì)胞中發(fā)揮作用,以及以何種強(qiáng)度表達(dá)。
如果說蛋白質(zhì)結(jié)構(gòu)預(yù)測是在拼出“零件”的立體模型,那么DNA功能預(yù)測就是要理解說明書中每一個(gè)符號(hào)、注釋、開關(guān)命令甚至“暗物質(zhì)”區(qū)域的真正含義。其中涉及的信息層級(jí)更復(fù)雜、關(guān)聯(lián)更廣泛,且同一個(gè)DNA片段可能在不同時(shí)間、不同細(xì)胞類型中扮演不同角色,因此建模難度遠(yuǎn)高于蛋白質(zhì)。
幾十年來,生物學(xué)家嘗試用各種計(jì)算工具來揭示DNA復(fù)雜而隱秘的調(diào)控機(jī)制,但這些模型往往聚焦于單一功能??茖W(xué)家們渴望一種用于解釋DNA序列的“一體化”工具,于是,“阿爾法基因組”應(yīng)運(yùn)而生。
據(jù)美國趣味工程網(wǎng)站報(bào)道稱,與以往需在“序列長度”與“預(yù)測精度”之間取舍的模型不同,“阿爾法基因組”實(shí)現(xiàn)了二者兼得。它既能捕捉長程基因組上下文信息,又能提供堿基層面的精準(zhǔn)預(yù)測,拓展了疾病生物學(xué)、罕見變異研究、合成DNA設(shè)計(jì)等領(lǐng)域的研究視野。
一次可處理百萬個(gè)堿基對
據(jù)深度思維官網(wǎng)介紹,該模型一次可處理多達(dá)100萬個(gè)堿基對,并預(yù)測數(shù)千種分子屬性,包括基因表達(dá)、剪接模式、蛋白質(zhì)結(jié)合位點(diǎn)和染色質(zhì)可及性,覆蓋多種不同類型的細(xì)胞。這是首次有AI系統(tǒng)能聯(lián)合建模如此廣泛的調(diào)控特征。
“阿爾法基因組”訓(xùn)練所用的數(shù)據(jù)集來自多個(gè)公開的超大規(guī)模數(shù)據(jù)資源。令人驚訝的是,訓(xùn)練一個(gè)完整模型僅需4小時(shí),且所需計(jì)算資源僅為前代模型的一半。在26項(xiàng)基準(zhǔn)測試中,其有24項(xiàng)表現(xiàn)優(yōu)于或持平于專用模型。
新模型的一大亮點(diǎn)是其變異評分系統(tǒng),能高效對比突變前后的DNA序列,并跨多種生物通路評估其影響。
“阿爾法基因組”還具備剪接位點(diǎn)建模功能,這是首次有模型能夠預(yù)測與囊性纖維化、脊髓性肌萎縮等疾病相關(guān)的RNA剪接異常。
在合成生物學(xué)領(lǐng)域,“阿爾法基因組”可用于設(shè)計(jì)特定的調(diào)控序列,例如僅在神經(jīng)細(xì)胞中激活某些基因,而在肌肉細(xì)胞中保持沉默。同時(shí),它也有望用于研究生物效應(yīng)強(qiáng)烈的罕見遺傳變異,如導(dǎo)致孟德爾遺傳病的突變。
在一項(xiàng)驗(yàn)證中,研究人員將“阿爾法基因組”應(yīng)用于先前研究中識(shí)別出的某種白血病相關(guān)突變。結(jié)果,該模型準(zhǔn)確預(yù)測出,某些非編碼區(qū)變異會(huì)間接激活附近的TAL1致癌基因,這一機(jī)制正是T細(xì)胞急性淋巴細(xì)胞白血病中已知的致病過程。
模型尚不適用于個(gè)體診斷
盡管“阿爾法基因組”的表現(xiàn)令人矚目,但深度思維團(tuán)隊(duì)表示,該系統(tǒng)目前仍存在很多限制。它并未設(shè)計(jì)用于個(gè)體基因組解讀,也無法像23andMe或臨床基因檢測那樣預(yù)測疾病風(fēng)險(xiǎn)或祖源信息。也就是說,該模型不適用于個(gè)體診斷或醫(yī)療決策。
“阿爾法基因組”目前的訓(xùn)練數(shù)據(jù)僅限于人類和小鼠,尚未覆蓋其他物種,其跨物種適應(yīng)性尚待驗(yàn)證。同時(shí),它在識(shí)別調(diào)控元件與遠(yuǎn)距離靶基因(距離超過10萬個(gè)堿基)之間關(guān)系方面的能力仍較弱,也無法完全建模細(xì)胞在不同狀態(tài)、不同組織中的動(dòng)態(tài)調(diào)控機(jī)制。
美國冷泉港實(shí)驗(yàn)室計(jì)算生物學(xué)家彼得·庫指出:“這些模型往往是在一個(gè)固定條件下訓(xùn)練的,但現(xiàn)實(shí)中的細(xì)胞是動(dòng)態(tài)的,蛋白質(zhì)水平、DNA化學(xué)修飾、轉(zhuǎn)錄狀態(tài)等都會(huì)隨時(shí)間和環(huán)境變化,這些變化會(huì)顯著影響同一段DNA序列的行為?!币虼耍磥砟P托枰敫唷岸嗄B(tài)”“多時(shí)間尺度”因素,才能更真實(shí)地模擬生物過程。