生命是一個(gè)多層次、多尺度、動(dòng)態(tài)互聯(lián)、相互影響的復(fù)雜系統(tǒng)。在面對(duì)生命現(xiàn)象的極端復(fù)雜性、多尺度跨越和時(shí)空動(dòng)態(tài)變化時(shí),傳統(tǒng)的生命科學(xué)研究范式往往只能從局部入手,通過(guò)實(shí)驗(yàn)驗(yàn)證或有限層次的組學(xué)數(shù)據(jù)分析建立有限生物分子和表型的關(guān)聯(lián)關(guān)系。
AI技術(shù),尤其是深度學(xué)習(xí)和預(yù)訓(xùn)練大模型等技術(shù),以其優(yōu)越的模式識(shí)別和特征提取能力,能夠在龐大的參數(shù)堆疊情況下超越人類理性推理能力,從數(shù)據(jù)中更好地理解復(fù)雜生物系統(tǒng)中的規(guī)律?,F(xiàn)代生物技術(shù)的不斷發(fā)展,使生命科學(xué)領(lǐng)域的數(shù)據(jù)呈現(xiàn)跨越式增長(zhǎng),在過(guò)去全球范圍生命科學(xué)研究中,人類已經(jīng)積累了大量基于實(shí)驗(yàn)描述和驗(yàn)證的數(shù)據(jù),為AI破解生命科學(xué)底層規(guī)律創(chuàng)造了基礎(chǔ)。當(dāng)擁有充足且高質(zhì)量的數(shù)據(jù)和適配于生命科學(xué)的算法時(shí),AI模型就能夠在多層次的海量數(shù)據(jù)中以“低維”數(shù)據(jù)預(yù)測(cè)“高維”信息及規(guī)律,實(shí)現(xiàn)從基因序列和表達(dá)等低維數(shù)據(jù)到細(xì)胞、機(jī)體等高維復(fù)雜生物過(guò)程規(guī)律揭示的跨越,解析復(fù)雜的非線性關(guān)系,如生物大分子結(jié)構(gòu)生成規(guī)律、基因表達(dá)調(diào)控機(jī)制,甚至個(gè)體發(fā)育、衰老等多因素交叉的復(fù)雜生物系統(tǒng)中的底層規(guī)律。
在此發(fā)展趨勢(shì)下,近年來(lái)生命科學(xué)領(lǐng)域涌現(xiàn)出了蛋白質(zhì)結(jié)構(gòu)解析、基因調(diào)控規(guī)律解析等一批AI驅(qū)動(dòng)生命科學(xué)研究發(fā)展的典型范例。
1.蛋白質(zhì)結(jié)構(gòu)解析
蛋白質(zhì)作為生物體內(nèi)關(guān)鍵功能的執(zhí)行者,其結(jié)構(gòu)直接影響運(yùn)輸、催化、結(jié)合和免疫功能等重要的生物過(guò)程。雖然測(cè)序技術(shù)可以揭示蛋白質(zhì)所包含的氨基酸序列,但任何一個(gè)已知氨基酸序列的蛋白質(zhì)鏈有可能折疊成天文數(shù)字中的任何一種可能構(gòu)象,這使得準(zhǔn)確解析蛋白質(zhì)結(jié)構(gòu)成為長(zhǎng)期以來(lái)的挑戰(zhàn)。利用傳統(tǒng)技術(shù)如核磁共振、X射線晶體分析、冷凍電子顯微鏡等解析已知序列的蛋白質(zhì)結(jié)構(gòu)方法,需要數(shù)年時(shí)間才能描繪出單個(gè)蛋白質(zhì)的形狀,昂貴耗時(shí)且不能保證成功解析其結(jié)構(gòu)。因此,捕獲蛋白質(zhì)折疊的底層規(guī)律從而實(shí)現(xiàn)對(duì)蛋白質(zhì)結(jié)構(gòu)的精準(zhǔn)預(yù)測(cè),一直是結(jié)構(gòu)生物學(xué)領(lǐng)域最重要的挑戰(zhàn)之一。
AlphaFold 2利用基于注意力機(jī)制的深度學(xué)習(xí)算法,對(duì)大量蛋白質(zhì)序列和結(jié)構(gòu)數(shù)據(jù)進(jìn)行訓(xùn)練,并結(jié)合物理學(xué)、化學(xué)和生物學(xué)的先驗(yàn)知識(shí),構(gòu)建了包含特征提取、編碼、解碼模塊的蛋白質(zhì)結(jié)構(gòu)解析模型。在2020年國(guó)際蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)競(jìng)賽(CASP14)中,AlphaFold 2取得了矚目的成績(jī),其蛋白質(zhì)三維結(jié)構(gòu)預(yù)測(cè)準(zhǔn)確性甚至可與實(shí)驗(yàn)解析的結(jié)果相媲美。這一突破為生命科學(xué)領(lǐng)域帶來(lái)了全新的視角和前所未有的機(jī)遇,主要體現(xiàn)在3點(diǎn)。
(1)對(duì)藥物發(fā)現(xiàn)領(lǐng)域產(chǎn)生了直接影響
大多數(shù)藥物通過(guò)與體內(nèi)蛋白質(zhì)特殊結(jié)構(gòu)域的結(jié)合而引發(fā)蛋白質(zhì)功能的變化,AlphaFold 2能夠快速計(jì)算出海量目標(biāo)蛋白質(zhì)的結(jié)構(gòu),從而有針對(duì)性地設(shè)計(jì)藥物以有效地與這些蛋白質(zhì)結(jié)合。
(2)對(duì)蛋白質(zhì)的理性設(shè)計(jì)提供了新的可能性
一旦AI對(duì)蛋白質(zhì)折疊的底層規(guī)律有了深刻理解,就可以利用這一知識(shí)設(shè)計(jì)出折疊成所需結(jié)構(gòu)的蛋白質(zhì)序列。這使得生物學(xué)家可以根據(jù)需求自由設(shè)計(jì)和改造蛋白質(zhì)或酶的結(jié)構(gòu),如設(shè)計(jì)更高活性的基因編輯酶,甚至是自然界中不存在的蛋白質(zhì)結(jié)構(gòu)。同時(shí)也推動(dòng)了人們對(duì)基因編碼信息在蛋白質(zhì)層面結(jié)構(gòu)投射規(guī)律的理解,并將大幅提高人類對(duì)生命的改造能力。
(3)AlphaFold 2徹底改變蛋白質(zhì)結(jié)構(gòu)解析領(lǐng)域的研究范式
從只能通過(guò)費(fèi)時(shí)費(fèi)力的傳統(tǒng)實(shí)驗(yàn)技術(shù)解析蛋白質(zhì)結(jié)構(gòu)轉(zhuǎn)變?yōu)榈烷T檻、高精度、高通量地預(yù)測(cè)蛋白質(zhì)三維結(jié)構(gòu)的新范式,證明通過(guò)將蛋白質(zhì)知識(shí)和AI技術(shù)相結(jié)合,可以提取和學(xué)習(xí)到高維、復(fù)雜的知識(shí),促進(jìn)對(duì)蛋白質(zhì)物理結(jié)構(gòu)和功能的更深入理解。
2.基因調(diào)控規(guī)律解析
人類基因組計(jì)劃被譽(yù)為20世紀(jì)人類三大科學(xué)計(jì)劃之一,揭開了生命奧秘的序幕。盡管編碼生命個(gè)體的遺傳信息存儲(chǔ)在DNA序列中,但每個(gè)細(xì)胞的命運(yùn)和表型卻因其獨(dú)特的時(shí)空背景而千差萬(wàn)別。這種復(fù)雜的生命過(guò)程由精細(xì)的基因表達(dá)調(diào)控系統(tǒng)所控制,而探索生命普遍存在的基因調(diào)控機(jī)制是繼人類基因組計(jì)劃之后最為重要的生命科學(xué)問(wèn)題之一。不同細(xì)胞的基因表達(dá)譜是理解生物系統(tǒng)內(nèi)基因調(diào)控活動(dòng)的理想窗口。然而,僅通過(guò)生物學(xué)實(shí)驗(yàn)全面解讀基因調(diào)控機(jī)制,需要捕獲不同生物個(gè)體的不同細(xì)胞類型在不同環(huán)境背景下的對(duì)照試驗(yàn)來(lái)觀察。傳統(tǒng)生物信息分析方法只能處理少量數(shù)據(jù),對(duì)大規(guī)模、高維度且缺乏準(zhǔn)確標(biāo)注的生物組大數(shù)據(jù)難以捕捉數(shù)據(jù)中復(fù)雜的非線性關(guān)系。
近年來(lái),自然語(yǔ)言處理技術(shù)的不斷突破,特別是大語(yǔ)言模型的迅猛發(fā)展,能夠通過(guò)訓(xùn)練語(yǔ)料數(shù)據(jù)使模型具有理解人類語(yǔ)言描述知識(shí)的能力,為解決這一領(lǐng)域問(wèn)題帶來(lái)了新思路。
國(guó)際多個(gè)研究團(tuán)隊(duì)借鑒大語(yǔ)言模型的訓(xùn)練思路,相繼基于數(shù)以千萬(wàn)計(jì)的人類單細(xì)胞轉(zhuǎn)錄組譜數(shù)據(jù)和龐大的算力資源,利用Transformer等先進(jìn)算法和多種生物學(xué)知識(shí),構(gòu)建了多個(gè)具有理解基因動(dòng)態(tài)關(guān)系能力的生命基礎(chǔ)大模型,如GeneCompass、scGPT、Geneformer和scFoundation等。這些生命基礎(chǔ)大模型以基因表達(dá)等底層生命活動(dòng)信息為訓(xùn)練基礎(chǔ),利用機(jī)器來(lái)學(xué)習(xí)理解這些“低維”的生命科學(xué)數(shù)據(jù)與復(fù)雜“高維”的基因表達(dá)調(diào)控網(wǎng)絡(luò)、細(xì)胞命運(yùn)轉(zhuǎn)變等底層生命機(jī)制之間的關(guān)聯(lián)性和對(duì)應(yīng)規(guī)律,實(shí)現(xiàn)以低維數(shù)據(jù)對(duì)高維信息的有效模擬和預(yù)測(cè)。這種對(duì)基因表達(dá)調(diào)控網(wǎng)絡(luò)的模擬可以在廣泛的下游任務(wù)中表現(xiàn)出卓越性能,為深入理解基因調(diào)控規(guī)律提供了全新的途徑。
現(xiàn)有的AI驅(qū)動(dòng)生命科學(xué)研究的成功案例向我們證明,面對(duì)更深入、更系統(tǒng)的生命科學(xué)問(wèn)題,AI有望突破傳統(tǒng)研究方法難以解決的困境、構(gòu)建從基礎(chǔ)生物層次到整個(gè)生命系統(tǒng)的投射理論體系,并進(jìn)一步推動(dòng)生命科學(xué)向更高階段發(fā)展,開啟生命科學(xué)研究的新范式。
隨著新范式的不斷發(fā)展,生命科學(xué)研究將迎來(lái)以AI預(yù)測(cè)、指導(dǎo)、提出假說(shuō)、驗(yàn)證假設(shè)為特點(diǎn)的新型研究模態(tài),迸發(fā)出一批快速發(fā)展的生命科學(xué)新范式前沿研究方向,并展現(xiàn)出新范式變革帶來(lái)的發(fā)展增益。
3.新范式賦能的生命科學(xué)研究前沿
(1)結(jié)構(gòu)生物學(xué)
目前在結(jié)構(gòu)生物學(xué)領(lǐng)域,以AlphaFold為代表的AI應(yīng)用技術(shù)仍停留在“從序列到結(jié)構(gòu)”的蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)和設(shè)計(jì)階段,還無(wú)法實(shí)現(xiàn)復(fù)雜生理?xiàng)l件下蛋白質(zhì)結(jié)構(gòu)和功能的模擬與預(yù)測(cè)。更高質(zhì)量、更大規(guī)模的蛋白質(zhì)數(shù)據(jù)和新型算法的出現(xiàn),將有望對(duì)不同生理狀態(tài)和時(shí)空條件下的生物大分子結(jié)構(gòu)和功能進(jìn)行系統(tǒng)解析,并實(shí)現(xiàn)蛋白質(zhì)“從序列到功能”甚至“從序列到多尺度相互作用”的智能化結(jié)構(gòu)解析與精細(xì)設(shè)計(jì)。
(2)系統(tǒng)生物學(xué)
當(dāng)前的組學(xué)數(shù)據(jù)分析仍局限于較低維度的生物組學(xué)觀測(cè)水平,還未形成從基因水平到細(xì)胞水平甚至生物個(gè)體乃至群體組學(xué)水平的全維度觀測(cè)。新范式將融通多維度、多模態(tài)的生物大數(shù)據(jù)和專家先驗(yàn)知識(shí),提取生物表型的關(guān)鍵特征,構(gòu)建多尺度生物過(guò)程解析模型,還原復(fù)雜生物系統(tǒng)運(yùn)行的底層規(guī)律,形成基礎(chǔ)而廣泛適用的系統(tǒng)生物學(xué)研究新體系。
(3)遺傳學(xué)
隨著多組學(xué)數(shù)據(jù)的積累和新型基因大模型的出現(xiàn),遺傳學(xué)研究已進(jìn)入新范式推動(dòng)的快速發(fā)展階段,基于基因表達(dá)譜數(shù)據(jù)的自監(jiān)督預(yù)訓(xùn)練大模型有望成為解析基因調(diào)控規(guī)律、預(yù)測(cè)疾病靶點(diǎn)的有力工具,拓展遺傳學(xué)研究的探索邊界。
(4)藥物設(shè)計(jì)開發(fā)
隨著AlphaFold的出現(xiàn)和一批分子動(dòng)力學(xué)模型的發(fā)展,AI模型已經(jīng)被用于預(yù)測(cè)和篩選藥物候選分子。未來(lái)新范式將進(jìn)一步推動(dòng)該領(lǐng)域的發(fā)展,有望出現(xiàn)AI輔助的全流程藥物設(shè)計(jì)開發(fā)體系,能夠自主完成藥物結(jié)構(gòu)和性質(zhì)的優(yōu)化設(shè)計(jì)、實(shí)現(xiàn)候選藥物的有效性和安全性模擬預(yù)測(cè)、生成藥物的高效合成和生產(chǎn)工藝方案,極大加速藥物的開發(fā)和生產(chǎn)過(guò)程。
(5)精準(zhǔn)醫(yī)學(xué)
計(jì)算機(jī)視覺(jué)、自然語(yǔ)言處理和機(jī)器學(xué)習(xí)等AI技術(shù)已廣泛滲透到生物影像、醫(yī)學(xué)影像、疾病智能分析及靶點(diǎn)預(yù)測(cè)等精準(zhǔn)醫(yī)學(xué)子領(lǐng)域。例如,基于AI的診斷系統(tǒng)在準(zhǔn)確度上已經(jīng)可以媲美甚至在某些方面超過(guò)資深的臨床醫(yī)生。然而,現(xiàn)有的模型大多受制于數(shù)據(jù)的偏好性,存在魯棒性差、通用性低等問(wèn)題,隨著新范式驅(qū)動(dòng)的通用精準(zhǔn)醫(yī)學(xué)模型的出現(xiàn),將有助于更加快速準(zhǔn)確地診斷疾病、解析疾病的分子機(jī)制、發(fā)現(xiàn)新的治療靶點(diǎn),提高人類的健康水平。
文章改編自《中國(guó)科學(xué)院院刊》2024年第1期,專題:大力推進(jìn)科研范式變革。原文標(biāo)題:人工智能驅(qū)動(dòng)的生命科學(xué)研究新范式
責(zé)任編輯:胡惠雯