科技日?qǐng)?bào)記者?張佳欣
制圖、寫(xiě)歌、作詩(shī)、編程、生成視頻……生成式人工智能(AI)技術(shù)與各行業(yè)的結(jié)合不斷為人們帶來(lái)驚喜,在各領(lǐng)域掀起革新浪潮。
現(xiàn)在,AI的應(yīng)用場(chǎng)景再次拓展:美國(guó)AI蛋白質(zhì)設(shè)計(jì)公司Profluent宣布,一款完全由AI設(shè)計(jì)的基因編輯器,已成功編輯了人類(lèi)細(xì)胞中的DNA。這預(yù)示著未來(lái)科學(xué)家能更精確、更快速地對(duì)抗疾病。
OpenCRISPR-1的物理結(jié)構(gòu),這是一種由Profluent的AI技術(shù)創(chuàng)建的基因編輯器。
圖片來(lái)源:singularityhub.com?
首款A(yù)I設(shè)計(jì)的基因編輯器
4月22日,初創(chuàng)公司Profluent宣布推出OpenCRISPRTM計(jì)劃,并聲稱(chēng)其成功使用AI生成的基因編輯器(稱(chēng)為OpenCRISPR-1)來(lái)編輯人類(lèi)DNA。該公司表示,這是“世界上第一個(gè)開(kāi)源的、AI生成的基因編輯器”,并且是“用AI從頭開(kāi)始設(shè)計(jì)的”。
這家公司將大量生物數(shù)據(jù)輸入一個(gè)大型語(yǔ)言模型(LLM),在基因編輯技術(shù)CRISPR基礎(chǔ)上提出了新的編輯方法。其目標(biāo)是構(gòu)建比現(xiàn)有生物機(jī)制更有效、更有能力的基因編輯器,使生物體能夠抵御疾病和其他病原體。Profluent團(tuán)隊(duì)相信,在其他領(lǐng)域游刃有余的AI,同樣可以在基因編輯領(lǐng)域如魚(yú)得水。
“嘗試用AI設(shè)計(jì)的生物系統(tǒng)來(lái)編輯人類(lèi)DNA是一次科學(xué)上的挑戰(zhàn)?!盤(pán)rofluent聯(lián)合創(chuàng)始人兼首席執(zhí)行官阿里·馬達(dá)尼說(shuō),“我們的成功預(yù)示著未來(lái)AI將精確設(shè)計(jì)出一系列定制的疾病治療方案。為了促進(jìn)基因編輯領(lǐng)域創(chuàng)新,推動(dòng)這一未來(lái)趨勢(shì),我們正在開(kāi)源OpenCRISPRTM計(jì)劃的產(chǎn)品?!边@意味著OpenCRISPR-1編輯器是開(kāi)放的,允許個(gè)人、學(xué)術(shù)實(shí)驗(yàn)室和公司免費(fèi)試驗(yàn)該技術(shù)。
CRISPR和AI的“天作之合”
CRISPR這一基因編輯工具的靈感,來(lái)自細(xì)菌和古菌等原核生物的適應(yīng)性免疫機(jī)制。在自然界,細(xì)菌和古菌通過(guò)CRISPR-Cas系統(tǒng)來(lái)對(duì)抗病毒入侵。該系統(tǒng)通過(guò)記錄并剪切病毒基因組來(lái)保護(hù)細(xì)菌免受病毒感染??茖W(xué)家們通過(guò)對(duì)CRISPR-Cas系統(tǒng)的研究,成功開(kāi)發(fā)出了一系列強(qiáng)大的基因編輯工具,例如CRISPR-Cas9。
可以說(shuō),CRISPR是大自然擲了數(shù)十億次骰子后(自然選擇)產(chǎn)生的強(qiáng)大工具之一。不過(guò),棘手的是,大多數(shù)Cas9蛋白長(zhǎng)度超過(guò)1000個(gè)氨基酸,總體設(shè)計(jì)空間包含20的1000次方個(gè)可能序列,這比可觀測(cè)宇宙中的原子數(shù)量還要多幾個(gè)數(shù)量級(jí)。
只有當(dāng)這些蛋白質(zhì)以正確順序排列并相互作用,才能實(shí)現(xiàn)精準(zhǔn)切割。因此,即使是單個(gè)錯(cuò)誤突變,也可能讓蛋白質(zhì)完全喪失功能。通過(guò)實(shí)驗(yàn)探索所有可能的序列變異,需要幾代科學(xué)家的努力。但現(xiàn)在,通過(guò)AI系統(tǒng),在幾個(gè)小時(shí)內(nèi)就可以輕松發(fā)現(xiàn)功能性基因編輯器。
Profluent公司采用了一種新穎方式來(lái)使用AI:他們沒(méi)有增強(qiáng)現(xiàn)有系統(tǒng),而是使用大型語(yǔ)言模型從頭開(kāi)始設(shè)計(jì)CRISPR組件。該模型也是聊天機(jī)器人ChatGPT和圖像生成系統(tǒng)DALL-E的基礎(chǔ)。
現(xiàn)在,人類(lèi)的DNA,也能由AI重新改寫(xiě)了。
語(yǔ)言模型生成多種CRISPR-Cas蛋白
生成蛋白質(zhì)語(yǔ)言模型需要大量數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練,而這需要涵蓋廣泛功能的大型、多樣化的天然蛋白質(zhì)序列數(shù)據(jù)集。為此,Profluent創(chuàng)建了迄今為止最廣泛的CRISPR系統(tǒng)數(shù)據(jù)集,包含510萬(wàn)個(gè)CRISPR-Cas蛋白質(zhì)數(shù)據(jù)。研究人員利用該數(shù)據(jù)集訓(xùn)練AI大型語(yǔ)言模型,并要求AI創(chuàng)建可在CRISPR系統(tǒng)中代替Cas9的潛在蛋白質(zhì)。
結(jié)果顯示,系統(tǒng)從400萬(wàn)個(gè)序列中進(jìn)行篩選,最終確定了包括OpenCRISPR-1在內(nèi)的新蛋白質(zhì)。這種新設(shè)計(jì)蛋白質(zhì)在測(cè)試中的表現(xiàn)與Cas9不相上下,但有一點(diǎn)明顯突出:它對(duì)脫靶位點(diǎn)的影響降低了95%。這意味著它更加精確,幾乎只在需要的地方起作用,而不會(huì)對(duì)DNA鏈造成任何多余損傷。
總體而言,這些結(jié)果將潛在Cas蛋白的范圍擴(kuò)大了近5倍。這些AI生成的蛋白質(zhì)表現(xiàn)出更廣泛的功能。它們?cè)诓煌瑮l件下保持高活性,能輕松適應(yīng)不同的溫度和分子環(huán)境。
Profluent尚未將這些合成基因編輯器進(jìn)行臨床試驗(yàn),因此尚不清楚它們能否趕上或超過(guò)CRISPR的性能。但概念論證表明,AI模型能夠編輯人類(lèi)基因組。
此外,Profluent的平臺(tái)能隨意生成更多的基因編輯系統(tǒng),而OpenCRISPR-1只是“冰山一角”。
發(fā)表在預(yù)印本服務(wù)器bioRxiv上的論文尚未經(jīng)過(guò)專(zhuān)家同行評(píng)審。預(yù)計(jì)下個(gè)月,該公司將在美國(guó)基因和細(xì)胞治療學(xué)會(huì)年會(huì)上提交這篇論文。與此同時(shí),OpenCRISPR-1或其變體在多種生物體(包括植物、小鼠和人類(lèi))中是否都能發(fā)揮作用還有待證明。此外,技術(shù)的倫理和安全問(wèn)題也需要考慮。但令人興奮的是,這些突破性成果為生成式AI開(kāi)辟了一條新途徑,將對(duì)醫(yī)學(xué)和健康領(lǐng)域產(chǎn)生廣泛影響,有望從根本上改變?nèi)藗兊幕蛩{(lán)圖。