作者:劉沐蕓
時(shí)間:2024-11-10 14:52
2024年的諾獎(jiǎng),除了首日的醫(yī)學(xué)/生理學(xué)獎(jiǎng),接下來(lái)的物理獎(jiǎng)和化學(xué)獎(jiǎng)不約而同地都給了人工智能領(lǐng)域,這兩個(gè)獎(jiǎng)項(xiàng)的授予是前無(wú)古人,但不一定是后無(wú)來(lái)者的決定。
物理獎(jiǎng)給了普林斯頓大學(xué)的John Hopfield和多倫多大學(xué)的Geoffrey Hinton,肯定了兩位步入古稀之年的老教授年輕時(shí)“充滿波折”的研究成果,他們應(yīng)用物理學(xué)工具發(fā)現(xiàn)了信息科技的研究新范式,奠定了強(qiáng)大的機(jī)器學(xué)習(xí)的基礎(chǔ)理論,不斷引發(fā)當(dāng)前的科學(xué)研究范式改變與工程創(chuàng)新。

化學(xué)獎(jiǎng)?lì)C給了蛋白質(zhì)設(shè)計(jì)和結(jié)構(gòu)預(yù)測(cè)AI工具的發(fā)明人,谷歌DeepMind的Demis Hassabis、John Jumper和華盛頓大學(xué)的David Baker。這項(xiàng)AI工具基于人工神經(jīng)網(wǎng)絡(luò)開(kāi)發(fā)出用于預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)和設(shè)計(jì)全新的蛋白質(zhì)。其中,谷歌開(kāi)發(fā)的AlphaFold獲得了2023年蓋爾德納獎(jiǎng),而蓋爾德納獎(jiǎng)通常被認(rèn)為是諾獎(jiǎng)風(fēng)向標(biāo)。

人工神經(jīng)網(wǎng)絡(luò)的發(fā)明,源于20世紀(jì)80年代。Hopfield和Hinton組裝了不同的計(jì)算裝置模擬人類大腦的認(rèn)知模式,Hopfield發(fā)明了記憶網(wǎng)絡(luò),用于儲(chǔ)存和重構(gòu)圖像;Hinton發(fā)明了一種從數(shù)據(jù)集中提取特征的方法,從而能識(shí)別圖像中具有特異性的特征。正如諾獎(jiǎng)委員會(huì)介紹的那樣,Hopfield和Hinton的工作不僅是推動(dòng)了物理學(xué)科的進(jìn)步,也對(duì)我們的日常生活帶來(lái)巨變,比如人臉識(shí)別、自動(dòng)翻譯等。同時(shí),化學(xué)獎(jiǎng)研究成果AlphaFold等對(duì)生命科學(xué)研究范式的改變,驅(qū)動(dòng)著生命科學(xué)領(lǐng)域的研究從過(guò)去的“假設(shè)-實(shí)驗(yàn)-驗(yàn)證”試錯(cuò)模式轉(zhuǎn)向了數(shù)據(jù)驅(qū)動(dòng)的無(wú)假設(shè)研究范式,極大地縮短了生命科學(xué)領(lǐng)域重磅成果的“假設(shè)-驗(yàn)證-試錯(cuò)-再驗(yàn)證”的總體研究周期,簡(jiǎn)化了生命科學(xué)研究開(kāi)發(fā)的復(fù)雜體系。
兩個(gè)獎(jiǎng)項(xiàng)的頒發(fā),標(biāo)志著AI已成為新的基礎(chǔ)學(xué)科。我國(guó)即將步入第十五個(gè)五年規(guī)劃期,基于化學(xué)獎(jiǎng)對(duì)結(jié)構(gòu)生物學(xué)帶來(lái)的范式改變,今年的獎(jiǎng)項(xiàng)將為我們部署產(chǎn)業(yè)設(shè)施與產(chǎn)業(yè)重大公共服務(wù)平臺(tái)發(fā)展新質(zhì)生產(chǎn)力提供一些參考和借鑒。

學(xué)科融合的勝利
今年2個(gè)獎(jiǎng)項(xiàng)的授予,可以說(shuō)是學(xué)科融合的勝利,充分肯定了學(xué)科交叉融合的重要性,推動(dòng)我們進(jìn)入了一個(gè)對(duì)過(guò)去理論突破高效利用的新方式,對(duì)已有基礎(chǔ)學(xué)科的存量理論突破性的進(jìn)行交叉融合形成新的基礎(chǔ)學(xué)科,產(chǎn)生新的理論突破,為人類探索自然的奧秘提供新的基礎(chǔ)理論和新的研究工具,進(jìn)一步拓寬我們認(rèn)知世界的邊界,以及人類發(fā)明創(chuàng)造的能力。我們國(guó)家的教書(shū)育人的系統(tǒng)是否需要與時(shí)俱進(jìn)地創(chuàng)新學(xué)科設(shè)計(jì)?
物理獎(jiǎng)的成果,兩位科學(xué)家基于物理學(xué)中的能量概念,與數(shù)學(xué)、計(jì)算科學(xué)和神經(jīng)科學(xué)的基礎(chǔ)知識(shí)融合,開(kāi)發(fā)出Boltzmann網(wǎng)絡(luò)和Hopfield網(wǎng)絡(luò)。新的基礎(chǔ)理論突破從出現(xiàn)到引爆一個(gè)新的產(chǎn)業(yè)領(lǐng)域也需要多學(xué)科、多領(lǐng)域的并行突破和交叉融合,人工神經(jīng)網(wǎng)絡(luò)的識(shí)別精度在超大算力和高質(zhì)量數(shù)據(jù)集的雙重支撐下才被業(yè)界廣泛認(rèn)可與接受,也就是說(shuō)“神經(jīng)網(wǎng)絡(luò)識(shí)別算法,GPU加持的算力與高質(zhì)量數(shù)據(jù)集”三方面的完美融合,才引爆了當(dāng)今的AI新紀(jì)元。
獲得化學(xué)獎(jiǎng)的蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)模型——AlphaFold的發(fā)明,更是體現(xiàn)了結(jié)構(gòu)生物和計(jì)算生物學(xué)科領(lǐng)域的知識(shí)從量變的積累引發(fā)質(zhì)變的迭代過(guò)程,Hinton的神經(jīng)網(wǎng)絡(luò)的價(jià)值在算力突破后被廣為接受,為業(yè)界提供的新的算法架構(gòu)。但如果沒(méi)有全球結(jié)構(gòu)生物學(xué)家共建的蛋白質(zhì)數(shù)據(jù)庫(kù),基于神經(jīng)網(wǎng)絡(luò)的AlphaFold的訓(xùn)練可能就不會(huì)如此順利,該數(shù)據(jù)庫(kù)開(kāi)放共享了200000+的蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù),而其中的每一個(gè)蛋白質(zhì)數(shù)據(jù)都凝聚了結(jié)構(gòu)生物家數(shù)年的“心血”。
工具的基礎(chǔ)性作用
基于人工神經(jīng)網(wǎng)絡(luò)深度學(xué)習(xí)用于蛋白質(zhì)設(shè)計(jì)的工具Rosetta和蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)的工具AlphaFold,徹底解放了當(dāng)前結(jié)構(gòu)生物學(xué)“嚴(yán)重依賴?yán)鋬鲭婄R平臺(tái)和博士生夜以繼日觀察”的研發(fā)范式和勞動(dòng)投入。并且一舉推到了過(guò)去橫梗在這個(gè)學(xué)科發(fā)展的幾座大山:重資產(chǎn)(批量購(gòu)買冷凍電鏡建電鏡平臺(tái)),學(xué)生多(三班倒夜以繼日地觀察)、以及研究經(jīng)費(fèi)大(支持冷凍電鏡平臺(tái)運(yùn)行),消除了由于硬件、經(jīng)費(fèi)和人員不足造成的研究成果(不是科研水平和能力)的差距。一舉將結(jié)構(gòu)生物學(xué)從過(guò)去的起點(diǎn)裝備“貴族”化進(jìn)化到“簡(jiǎn)裝”易行,推動(dòng)從業(yè)者進(jìn)入創(chuàng)新、創(chuàng)造的競(jìng)爭(zhēng),行業(yè)的差距將由研究能力決定,而不是由硬件投入決定。
AI新工具的推廣應(yīng)用,革新了新藥開(kāi)發(fā)的路徑和周期,新藥開(kāi)發(fā)工作將從過(guò)去的大海撈針般的裝備投入和人員投入轉(zhuǎn)為先驗(yàn)知識(shí)、高質(zhì)量的產(chǎn)業(yè)數(shù)據(jù)集的積累。制藥工業(yè)常說(shuō)的10年、10個(gè)億、上千人研發(fā)團(tuán)隊(duì)的新藥開(kāi)發(fā)模式將會(huì)得到明顯轉(zhuǎn)變。在數(shù)據(jù)庫(kù)、計(jì)算設(shè)施等新型公共服務(wù)平臺(tái)部署完善的情況下,未來(lái)僅需十幾名或幾十名研究人員組成的“輕量”新藥開(kāi)發(fā)團(tuán)隊(duì)可能將成為生物醫(yī)藥行業(yè)的常態(tài)。
同時(shí),新工具的出現(xiàn)無(wú)疑會(huì)對(duì)現(xiàn)有工具和方法帶來(lái)極大的破壞性,2020年AlphaFold2在蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)挑戰(zhàn)賽中勝出后,主辦方在大賽的總結(jié)陳詞中就宣布“蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)難題已經(jīng)解決了,大家都回家并換個(gè)研究方向吧。”

但是人類的發(fā)展進(jìn)化史就是一部工具和材料迭代的歷史,石器、青銅和鐵器等時(shí)代,每一次工具、材料迭代成功,就昭示著一個(gè)新時(shí)代的來(lái)臨,而伴隨著工具的進(jìn)步迭代,我們認(rèn)知極微世界的能力不斷增強(qiáng)。此外,基于新工具的使用,人類社會(huì)對(duì)資源的使用能力、利用效率和發(fā)明創(chuàng)造能力也都在發(fā)生翻天覆地的變化。新的5年規(guī)劃中,資助領(lǐng)域是否需要涵蓋工具的研發(fā),尤其是具有變革產(chǎn)業(yè)發(fā)展路徑潛力的新工具與新方法。
數(shù)據(jù)驅(qū)動(dòng)的產(chǎn)業(yè)設(shè)施——匯聚高質(zhì)量數(shù)據(jù)集的數(shù)據(jù)庫(kù)
AlphaFold的獲獎(jiǎng),同時(shí)也是產(chǎn)業(yè)基礎(chǔ)設(shè)施的勝利,總結(jié)下來(lái)有三件事催生了今年的諾貝爾化學(xué)獎(jiǎng)成果。
第一,高質(zhì)量的蛋白質(zhì)數(shù)據(jù)庫(kù)(Protein Data Bank)的開(kāi)放共享,是今年化學(xué)獎(jiǎng)的基礎(chǔ)支撐。幾十年來(lái),全世界數(shù)千名的科學(xué)家(也包括中國(guó)科學(xué)家)上傳并共享了其通過(guò)冷凍電鏡,或射線衍射晶體分析等發(fā)現(xiàn)的蛋白質(zhì)序列,以及提煉的蛋白質(zhì)晶體結(jié)構(gòu),建立了公共的蛋白質(zhì)數(shù)據(jù)庫(kù),該項(xiàng)目由一個(gè)國(guó)際科學(xué)家小組管理。可以說(shuō),DeepMind用于訓(xùn)練AlphaFold的數(shù)據(jù)是基于成千上萬(wàn)的科學(xué)家畢生工作而來(lái)。
由此可見(jiàn),能匯聚高質(zhì)量數(shù)據(jù)集的數(shù)據(jù)設(shè)施將是未來(lái)驅(qū)動(dòng)科技創(chuàng)新帶動(dòng)產(chǎn)業(yè)創(chuàng)新的新型公共服務(wù)平臺(tái),真正開(kāi)放共享的運(yùn)行機(jī)制是其發(fā)揮產(chǎn)業(yè)設(shè)施作用的關(guān)鍵。
其次,提供一個(gè)開(kāi)放融合、最大化數(shù)據(jù)庫(kù)效用的公平競(jìng)爭(zhēng)平臺(tái),建立起“生物學(xué)家上傳蛋白質(zhì)結(jié)構(gòu)完善擴(kuò)充數(shù)據(jù)庫(kù),給算法訓(xùn)練提供高質(zhì)量數(shù)據(jù)集,獲得蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)設(shè)計(jì)新工具”的良性循環(huán)。
20世紀(jì)70年代,John Moult讀博士時(shí)厭倦了生物學(xué)繁瑣耗時(shí)的實(shí)驗(yàn)主義方法,轉(zhuǎn)向不斷發(fā)展的蛋白質(zhì)計(jì)算領(lǐng)域,給程序提供一些氨基酸以生成正確的蛋白質(zhì)結(jié)構(gòu)。逐漸地,John Moult看到了實(shí)驗(yàn)主義和計(jì)算主義融合的可行性:實(shí)驗(yàn)主義工作精細(xì)準(zhǔn)確度高但緩慢費(fèi)力,計(jì)算主義速度快但卻為虛擬世界會(huì)經(jīng)常出錯(cuò)。于是在1994年,Moult及其同事Krzysztof Fidelis聯(lián)合設(shè)立一項(xiàng)社區(qū)科學(xué)實(shí)驗(yàn),發(fā)起結(jié)構(gòu)預(yù)測(cè)關(guān)鍵評(píng)估(the Critical Assessment of Structure Prediction(CASP) Competition),每2年一次。將數(shù)據(jù)庫(kù)中的蛋白質(zhì)結(jié)構(gòu)作為一個(gè)公共基準(zhǔn)參考,以賽事的形式,開(kāi)放共享同一標(biāo)準(zhǔn)數(shù)據(jù)集,大家可以各顯神通的展示其構(gòu)架的蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)模型,用模型算法的準(zhǔn)確率,和當(dāng)時(shí)業(yè)界“金標(biāo)準(zhǔn)”得出的蛋白質(zhì)結(jié)構(gòu)的準(zhǔn)確率作對(duì)比,看誰(shuí)的準(zhǔn)確性高。至今已持續(xù)了20多年,通過(guò)分享代碼和技術(shù),以友好競(jìng)爭(zhēng)的形式,朝著解決蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)的目標(biāo)前進(jìn)。
首先參賽的是Baker的Rosetta,成為1998年的“必勝之人”。期間發(fā)生了共同進(jìn)化概念的重大突破,Rosetta在2014年生成了2個(gè)結(jié)構(gòu)非常準(zhǔn)確的蛋白質(zhì),以至于當(dāng)時(shí)的評(píng)審專家都以為Baker完全解決了蛋白質(zhì)折疊的問(wèn)題。到了2018年,AlphaFold首次參賽就取得令人驚嘆的60分(過(guò)去24年,平均參賽得分不超過(guò)40分,滿分100分);2年后的2020年,AlphaFold2參賽,完勝所有參賽隊(duì)手。于是就有了賽后主辦方那番“大家回去轉(zhuǎn)行”的總結(jié)陳詞。
最后,行業(yè)為增加數(shù)據(jù)庫(kù)中的蛋白質(zhì)種類以及多樣性所做的各種努力:在建立數(shù)據(jù)庫(kù)之初,就確定“開(kāi)放共享”的基調(diào),所有的基因序列開(kāi)放,所有的結(jié)構(gòu)開(kāi)放。數(shù)十年的時(shí)間里,在數(shù)據(jù)庫(kù)的基礎(chǔ)上,行業(yè)通過(guò)CASP相互學(xué)習(xí),建立起良好的數(shù)據(jù)共享文化。
為了推動(dòng)代碼的開(kāi)放共享,Baker(2024年化學(xué)獎(jiǎng)獲得者)的實(shí)驗(yàn)室在2021年公布了其名為RoseTTAFold的代碼,隨后DeepMind也共享了其代碼和根據(jù)該模型預(yù)測(cè)的2.14億個(gè)蛋白質(zhì)結(jié)構(gòu),進(jìn)一步擴(kuò)大了AlphaFold的影響,開(kāi)創(chuàng)了“人人為我,我為人人”的新發(fā)展模式:有了AlphaFold數(shù)據(jù)庫(kù),大家可以搜索構(gòu)造并得到基于任何單元或序列的蛋白質(zhì)結(jié)構(gòu),即便是AlphaFold數(shù)據(jù)庫(kù)中不存在的結(jié)構(gòu),研究人員也可以將其插入模型中,通過(guò)AlphFold的代碼輕易得到結(jié)構(gòu)預(yù)測(cè)。而共享了算法代碼和其預(yù)測(cè)的蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)的團(tuán)隊(duì)在其發(fā)布AlphaFold2的四年后便獲得諾貝爾獎(jiǎng)。
雖然,在上傳發(fā)現(xiàn)的蛋白質(zhì)結(jié)構(gòu)時(shí),結(jié)構(gòu)生物學(xué)家們自己也沒(méi)有想到會(huì)有這么一天,上傳進(jìn)數(shù)據(jù)庫(kù)的蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)會(huì)被人“翻譯”成代碼,通過(guò)機(jī)器學(xué)習(xí)算法處理,用于預(yù)測(cè)新的蛋白質(zhì)結(jié)構(gòu),并設(shè)計(jì)出新的蛋白質(zhì)結(jié)構(gòu)。因此,今年的獎(jiǎng)項(xiàng)不僅是站在巨人的肩膀上,而是在完善的數(shù)據(jù)設(shè)施基礎(chǔ)上,站在了全世界結(jié)構(gòu)生物學(xué)家們超大規(guī)模成果金字塔的頂端。
討論
20世紀(jì),學(xué)界推動(dòng)政府部署了經(jīng)由實(shí)驗(yàn)主義方法獲得的蛋白質(zhì)數(shù)據(jù)庫(kù),孕育催生了結(jié)構(gòu)生物學(xué)領(lǐng)域的新技術(shù)和新方法,目前這些新技術(shù)已經(jīng)足夠強(qiáng)大,不僅拿了諾貝爾獎(jiǎng),還將引發(fā)制藥工業(yè)的產(chǎn)業(yè)變革,AI驅(qū)動(dòng)的藥物設(shè)計(jì)和開(kāi)發(fā)。
通常,基礎(chǔ)技術(shù)決定了具體產(chǎn)品的開(kāi)發(fā)方向,而競(jìng)爭(zhēng)性技術(shù)決定了下游市場(chǎng)容量的大小。政府支持產(chǎn)業(yè)公共設(shè)施與基礎(chǔ)研究,推動(dòng)成果高效轉(zhuǎn)化,鼓勵(lì)下游競(jìng)爭(zhēng)性技術(shù)的多元發(fā)展,以形成有利于個(gè)人和經(jīng)濟(jì)社會(huì)有利的重磅產(chǎn)品,甚至產(chǎn)生一個(gè)全新的蛋白質(zhì)設(shè)計(jì)產(chǎn)業(yè)。開(kāi)放共享的產(chǎn)業(yè)設(shè)施孕育新的基礎(chǔ)性技術(shù),新的基礎(chǔ)性技術(shù)催生了下游競(jìng)爭(zhēng)性技術(shù)的百花齊放,其實(shí)就是我國(guó)政府報(bào)告中提到“科技創(chuàng)新帶動(dòng)產(chǎn)業(yè)創(chuàng)新”的發(fā)展新路徑。
計(jì)算主義者盡可能對(duì)當(dāng)前已有的蛋白質(zhì)序列和結(jié)構(gòu)庫(kù)中的數(shù)據(jù)進(jìn)行高效利用,這對(duì)帶動(dòng)實(shí)驗(yàn)主義者產(chǎn)生新的高質(zhì)量實(shí)驗(yàn)數(shù)據(jù)也至關(guān)重要,而新的數(shù)據(jù)進(jìn)而又推動(dòng)了AI算法的迭代:生物學(xué)家將從實(shí)驗(yàn)中發(fā)現(xiàn)的蛋白質(zhì)上傳至蛋白質(zhì)數(shù)據(jù)庫(kù),數(shù)據(jù)庫(kù)中高質(zhì)量的數(shù)據(jù)集訓(xùn)練AI算法,形成蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)和設(shè)計(jì)的新工具,AI新工具進(jìn)一步引發(fā)產(chǎn)生新成果、新應(yīng)用和新數(shù)據(jù),反過(guò)來(lái)又促進(jìn)了工具的進(jìn)化、迭代,循環(huán)往復(fù),不斷進(jìn)步。
不過(guò),雖然今年的化學(xué)獎(jiǎng)對(duì)結(jié)構(gòu)生物學(xué)領(lǐng)域已經(jīng)形成了革命性的影響,但在生命科學(xué)領(lǐng)域,結(jié)構(gòu)生物學(xué)只是其中的一個(gè)學(xué)科,生命科學(xué)領(lǐng)域的其他領(lǐng)域也會(huì)產(chǎn)生新的具有破壞性的AI工具嗎?會(huì)有新的天才團(tuán)隊(duì)和世界級(jí)的公司出現(xiàn)嗎?畢竟,今年物理學(xué)獎(jiǎng)人工智能奠基性的成果在生命科學(xué)和生物技術(shù)領(lǐng)域的重大應(yīng)用才剛開(kāi)始呢!讓我們期待著后有中國(guó)的來(lái)者!
(0)
分享了中國(guó)政府抗疫措施、疫情對(duì)個(gè)人及企業(yè)的影響,并闡述了疫情后的“新常態(tài)”,分別是人員、物資出入境嚴(yán)管,增強(qiáng)全球供應(yīng)鏈韌性,無(wú)接觸商業(yè)模式崛起,生命健康基礎(chǔ)設(shè)施科技革新等。
閱讀全文