中共中央宣傳部委托新華通訊社主辦

想改造蛋白質(zhì)?交給人工智能吧

2024-11-08 09:23
來源:半月談網(wǎng)

“要么換行業(yè),要么擁抱人工智能?!边@是互聯(lián)網(wǎng)企業(yè)員工的感慨嗎?不,這是一位科學(xué)家的啟悟。

2020年蛋白質(zhì)結(jié)構(gòu)預(yù)測模型AlphaFold2橫空出世,上海交通大學(xué)物理與天文學(xué)院、自然科學(xué)研究院教授洪亮大受震撼。彼時他是計算化學(xué)領(lǐng)域的專家,志在借助各類裝置“看清”蛋白質(zhì)的結(jié)構(gòu),并用傳統(tǒng)計算方法解釋其結(jié)構(gòu)特點。AlphaFold2顛覆了這一切——它能廣泛預(yù)測蛋白質(zhì)的結(jié)構(gòu),準(zhǔn)確程度不亞于真實實驗所獲。

不出所料,AlphaFold的開發(fā)者德米斯·哈薩比斯和約翰·江珀在2024年斬獲諾貝爾化學(xué)獎,與他們一起獲獎的戴維·貝克同樣是借人工智能“破譯了蛋白質(zhì)的密碼”。

到此,您或許還覺得這些都只是象牙塔里的事。不過,接下來將帶給您一點點震撼:尋常如食品、寶貴如藥物、高價值如醫(yī)美產(chǎn)品、產(chǎn)業(yè)化如工業(yè)用酶……都已開始領(lǐng)略人工智能的力量。而且,不僅僅是預(yù)測,AI已經(jīng)開始改造這個蛋白質(zhì)支撐起的廣大世界。

改造蛋白質(zhì)的浪潮已來

人類生活離不開蛋白質(zhì),這一點不懂生物學(xué)也能了解。但是,人類社會的需求越來越多樣,要求越來越高端,天然蛋白質(zhì)未必能滿足我們,科學(xué)家就開始考慮改造蛋白質(zhì)了。

但是,這談何容易!

傳統(tǒng)方法改造蛋白質(zhì)主要是依靠專家經(jīng)驗和高通量實驗篩選,一般需要2至5年的研發(fā)周期,實驗數(shù)據(jù)少則幾萬、多則上億,成本更是千萬元量級。

不過,洪亮團(tuán)隊改造蛋白質(zhì)可以做到數(shù)十個項目同時進(jìn)行,而且效率還不一般……

金賽藥業(yè)是國內(nèi)生長激素龍頭企業(yè),其產(chǎn)品純化時需要用到一種抗體(蛋白質(zhì)的一種)。但這種抗體耐堿性很差,純化所必需的強堿環(huán)境會破壞其結(jié)構(gòu),導(dǎo)致抗體消耗很大。

怎么辦?洪亮團(tuán)隊僅用4個月,交給企業(yè)改造而得的新抗體,耐堿性提高4倍,企業(yè)成本一年就可節(jié)約1500萬元。

難道洪亮團(tuán)隊有什么魔法?其實他們只是主動擁抱技術(shù)浪潮而已——團(tuán)隊開發(fā)的基于預(yù)訓(xùn)練的通用人工智能Pro大模型扛起了所有。使用這一次從序列直達(dá)功能的大模型,研發(fā)周期可以月計算,產(chǎn)品更為穩(wěn)定,活性更高,更不必說實驗數(shù)據(jù)只需約100個,成本低至100萬元。人工智能,為生命科學(xué)的基本流程按下了“加速鍵”。

為什么人工智能手段更強

為什么傳統(tǒng)方法改造蛋白質(zhì)很困難?這與蛋白質(zhì)本身的復(fù)雜性有關(guān)。自然界中參與構(gòu)成蛋白質(zhì)的氨基酸有20種,一個蛋白質(zhì)分子一般由幾十個乃至數(shù)百個氨基酸組成,這些氨基酸按照一定序列連接肽鏈,一條或多條肽鏈遵循某些規(guī)律折疊才能得到蛋白質(zhì)。

不難發(fā)現(xiàn),即使只改變序列中某一個特定的氨基酸,也有19種選擇。而隨著想改變的氨基酸數(shù)量增加,可選方案的數(shù)量指數(shù)級增長,找到理想方案無異于大海撈針。

那人工智能是怎么做的呢?以Pro大模型為例,最關(guān)鍵的第一步就不同凡響:研究人員將要被改造的“野生”蛋白質(zhì)序列上傳給模型,1到2個小時后,模型會輸出大約30個方案。

洪亮介紹,在此過程中,模型完成了兩輪篩選,一是在眾多有可能的改造方案中選出符合自然規(guī)律的,類似于將篩選范圍從“大?!笨s小到了“水盆”;二是以熱穩(wěn)定性、活性、親和力、衰減耐受性等功能為指標(biāo),對“水盆”里的方案進(jìn)行蛋白質(zhì)功能打分,進(jìn)而根據(jù)功能需求將范圍縮小到“水杯”。

模型能發(fā)揮以上兩大核心作用,要從數(shù)據(jù)驅(qū)動說起。簡單說就是,投喂給模型足夠多的數(shù)據(jù),它就能從中總結(jié)出規(guī)律,從而預(yù)測新的答案。

洪亮介紹,團(tuán)隊向Pro模型投喂了近8億蛋白質(zhì)序列數(shù)據(jù)和接近1億的蛋白質(zhì)功能標(biāo)簽,其中超過5億蛋白質(zhì)序列和所有蛋白質(zhì)功能標(biāo)簽來自團(tuán)隊及合作機構(gòu)的長期積累,這是他們的核心優(yōu)勢。

值得一提的是,功能標(biāo)簽是該模型的“獨門秘笈”,借助它可以為蛋白質(zhì)序列與前文提到的熱穩(wěn)定性、活性、親和力、衰減耐受性等功能找到合理的對應(yīng)方式。此前AlphaFold2預(yù)測蛋白質(zhì)結(jié)構(gòu)一鳴驚人,就是因為它完美實現(xiàn)了蛋白質(zhì)序列到結(jié)構(gòu)的對應(yīng),而蛋白質(zhì)序列到功能的良好對應(yīng)有助于蛋白質(zhì)實現(xiàn)更優(yōu)異功能,可謂改造蛋白質(zhì)的“勝負(fù)手”。

從蛋白質(zhì)到底盤菌,有可能嗎

改造蛋白質(zhì)的可選方案從“大?!笨s小到“水杯”之后,還要做什么呢?

第一步:濕實驗驗證,也就是將第一步中模型產(chǎn)出的方案拿去驗證,并將驗證結(jié)果反饋給模型,供其學(xué)習(xí)和調(diào)整。

洪亮團(tuán)隊正進(jìn)行濕實驗驗證

第二步:模型重復(fù)第一步的預(yù)測,給出新一批方案,大約也是30個。

第三步一般也是最后一步:通過濕實驗,從新一批方案中選出理想方案。

在洪亮團(tuán)隊位于上海張江的工作平臺,我們可以看到,這里有濕實驗所需的各類實驗室,人工智能研究人員的工位就在實驗室外,大家交流起來很方便。“雖然我們訓(xùn)練模型用了幾年時間,但為后來工作的效率打好了基礎(chǔ)?!焙榱琳f,現(xiàn)在眾多蛋白質(zhì)改造項目同時進(jìn)行,人工智能環(huán)節(jié)卻只需要兩個人,其余十余人主要是負(fù)責(zé)濕實驗。

現(xiàn)在,更有提升空間的其實是濕實驗,每輪濕實驗驗證需要1至2個月,每輪模型預(yù)測只需要1至2個小時。如果濕實驗的機械化、智能化程度進(jìn)一步提高,改造蛋白質(zhì)的速度還會加快。

對于科學(xué)家來說,擁抱新技術(shù)的腳步一旦邁出,就不會輕易停歇?!暗鞍踪|(zhì)做得差不多了,我們在往縱深探索,下一步要攻關(guān)底盤菌的人工智能工程化方案?!焙榱林傅氖菍⒌鞍踪|(zhì)的人工智能改造,擴展到人工智能生產(chǎn),通過改造底盤菌的基因組,讓其高效生產(chǎn)目標(biāo)產(chǎn)品。

如果要往更深層次理解,人工智能“攻下”蛋白質(zhì),其實是在“破譯”生命的路上突飛猛進(jìn)。以人工智能的顛覆性速度,或許要不了多久,我們就能目睹從“破譯”生命到“修正”生命的變革。

半月談記者:董雪 吳振東 編輯:范鐘秀

責(zé)任編輯:王亞冉

熱門推薦