作者:劉沐蕓
時間:2024-11-10 14:52
2024年的諾獎,除了首日的醫學/生理學獎,接下來的物理獎和化學獎不約而同地都給了人工智能領域,這兩個獎項的授予是前無古人,但不一定是后無來者的決定。
物理獎給了普林斯頓大學的John Hopfield和多倫多大學的Geoffrey Hinton,肯定了兩位步入古稀之年的老教授年輕時“充滿波折”的研究成果,他們應用物理學工具發現了信息科技的研究新范式,奠定了強大的機器學習的基礎理論,不斷引發當前的科學研究范式改變與工程創新。
化學獎頒給了蛋白質設計和結構預測AI工具的發明人,谷歌DeepMind的Demis Hassabis、John Jumper和華盛頓大學的David Baker。這項AI工具基于人工神經網絡開發出用于預測蛋白質結構和設計全新的蛋白質。其中,谷歌開發的AlphaFold獲得了2023年蓋爾德納獎,而蓋爾德納獎通常被認為是諾獎風向標。
人工神經網絡的發明,源于20世紀80年代。Hopfield和Hinton組裝了不同的計算裝置模擬人類大腦的認知模式,Hopfield發明了記憶網絡,用于儲存和重構圖像;Hinton發明了一種從數據集中提取特征的方法,從而能識別圖像中具有特異性的特征。正如諾獎委員會介紹的那樣,Hopfield和Hinton的工作不僅是推動了物理學科的進步,也對我們的日常生活帶來巨變,比如人臉識別、自動翻譯等。同時,化學獎研究成果AlphaFold等對生命科學研究范式的改變,驅動著生命科學領域的研究從過去的“假設-實驗-驗證”試錯模式轉向了數據驅動的無假設研究范式,極大地縮短了生命科學領域重磅成果的“假設-驗證-試錯-再驗證”的總體研究周期,簡化了生命科學研究開發的復雜體系。
兩個獎項的頒發,標志著AI已成為新的基礎學科。我國即將步入第十五個五年規劃期,基于化學獎對結構生物學帶來的范式改變,今年的獎項將為我們部署產業設施與產業重大公共服務平臺發展新質生產力提供一些參考和借鑒。
學科融合的勝利
今年2個獎項的授予,可以說是學科融合的勝利,充分肯定了學科交叉融合的重要性,推動我們進入了一個對過去理論突破高效利用的新方式,對已有基礎學科的存量理論突破性的進行交叉融合形成新的基礎學科,產生新的理論突破,為人類探索自然的奧秘提供新的基礎理論和新的研究工具,進一步拓寬我們認知世界的邊界,以及人類發明創造的能力。我們國家的教書育人的系統是否需要與時俱進地創新學科設計?
物理獎的成果,兩位科學家基于物理學中的能量概念,與數學、計算科學和神經科學的基礎知識融合,開發出Boltzmann網絡和Hopfield網絡。新的基礎理論突破從出現到引爆一個新的產業領域也需要多學科、多領域的并行突破和交叉融合,人工神經網絡的識別精度在超大算力和高質量數據集的雙重支撐下才被業界廣泛認可與接受,也就是說“神經網絡識別算法,GPU加持的算力與高質量數據集”三方面的完美融合,才引爆了當今的AI新紀元。
獲得化學獎的蛋白質結構預測模型——AlphaFold的發明,更是體現了結構生物和計算生物學科領域的知識從量變的積累引發質變的迭代過程,Hinton的神經網絡的價值在算力突破后被廣為接受,為業界提供的新的算法架構。但如果沒有全球結構生物學家共建的蛋白質數據庫,基于神經網絡的AlphaFold的訓練可能就不會如此順利,該數據庫開放共享了200000+的蛋白質結構數據,而其中的每一個蛋白質數據都凝聚了結構生物家數年的“心血”。
工具的基礎性作用
基于人工神經網絡深度學習用于蛋白質設計的工具Rosetta和蛋白質結構預測的工具AlphaFold,徹底解放了當前結構生物學“嚴重依賴冷凍電鏡平臺和博士生夜以繼日觀察”的研發范式和勞動投入。并且一舉推到了過去橫梗在這個學科發展的幾座大山:重資產(批量購買冷凍電鏡建電鏡平臺),學生多(三班倒夜以繼日地觀察)、以及研究經費大(支持冷凍電鏡平臺運行),消除了由于硬件、經費和人員不足造成的研究成果(不是科研水平和能力)的差距。一舉將結構生物學從過去的起點裝備“貴族”化進化到“簡裝”易行,推動從業者進入創新、創造的競爭,行業的差距將由研究能力決定,而不是由硬件投入決定。
AI新工具的推廣應用,革新了新藥開發的路徑和周期,新藥開發工作將從過去的大海撈針般的裝備投入和人員投入轉為先驗知識、高質量的產業數據集的積累。制藥工業常說的10年、10個億、上千人研發團隊的新藥開發模式將會得到明顯轉變。在數據庫、計算設施等新型公共服務平臺部署完善的情況下,未來僅需十幾名或幾十名研究人員組成的“輕量”新藥開發團隊可能將成為生物醫藥行業的常態。
同時,新工具的出現無疑會對現有工具和方法帶來極大的破壞性,2020年AlphaFold2在蛋白質結構預測挑戰賽中勝出后,主辦方在大賽的總結陳詞中就宣布“蛋白質結構預測難題已經解決了,大家都回家并換個研究方向吧。”
但是人類的發展進化史就是一部工具和材料迭代的歷史,石器、青銅和鐵器等時代,每一次工具、材料迭代成功,就昭示著一個新時代的來臨,而伴隨著工具的進步迭代,我們認知極微世界的能力不斷增強。此外,基于新工具的使用,人類社會對資源的使用能力、利用效率和發明創造能力也都在發生翻天覆地的變化。新的5年規劃中,資助領域是否需要涵蓋工具的研發,尤其是具有變革產業發展路徑潛力的新工具與新方法。
數據驅動的產業設施——匯聚高質量數據集的數據庫
AlphaFold的獲獎,同時也是產業基礎設施的勝利,總結下來有三件事催生了今年的諾貝爾化學獎成果。
第一,高質量的蛋白質數據庫(Protein Data Bank)的開放共享,是今年化學獎的基礎支撐。幾十年來,全世界數千名的科學家(也包括中國科學家)上傳并共享了其通過冷凍電鏡,或射線衍射晶體分析等發現的蛋白質序列,以及提煉的蛋白質晶體結構,建立了公共的蛋白質數據庫,該項目由一個國際科學家小組管理。可以說,DeepMind用于訓練AlphaFold的數據是基于成千上萬的科學家畢生工作而來。
由此可見,能匯聚高質量數據集的數據設施將是未來驅動科技創新帶動產業創新的新型公共服務平臺,真正開放共享的運行機制是其發揮產業設施作用的關鍵。
其次,提供一個開放融合、最大化數據庫效用的公平競爭平臺,建立起“生物學家上傳蛋白質結構完善擴充數據庫,給算法訓練提供高質量數據集,獲得蛋白質結構預測設計新工具”的良性循環。
20世紀70年代,John Moult讀博士時厭倦了生物學繁瑣耗時的實驗主義方法,轉向不斷發展的蛋白質計算領域,給程序提供一些氨基酸以生成正確的蛋白質結構。逐漸地,John Moult看到了實驗主義和計算主義融合的可行性:實驗主義工作精細準確度高但緩慢費力,計算主義速度快但卻為虛擬世界會經常出錯。于是在1994年,Moult及其同事Krzysztof Fidelis聯合設立一項社區科學實驗,發起結構預測關鍵評估(the Critical Assessment of Structure Prediction(CASP) Competition),每2年一次。將數據庫中的蛋白質結構作為一個公共基準參考,以賽事的形式,開放共享同一標準數據集,大家可以各顯神通的展示其構架的蛋白質結構預測模型,用模型算法的準確率,和當時業界“金標準”得出的蛋白質結構的準確率作對比,看誰的準確性高。至今已持續了20多年,通過分享代碼和技術,以友好競爭的形式,朝著解決蛋白質結構預測的目標前進。
首先參賽的是Baker的Rosetta,成為1998年的“必勝之人”。期間發生了共同進化概念的重大突破,Rosetta在2014年生成了2個結構非常準確的蛋白質,以至于當時的評審專家都以為Baker完全解決了蛋白質折疊的問題。到了2018年,AlphaFold首次參賽就取得令人驚嘆的60分(過去24年,平均參賽得分不超過40分,滿分100分);2年后的2020年,AlphaFold2參賽,完勝所有參賽隊手。于是就有了賽后主辦方那番“大家回去轉行”的總結陳詞。
最后,行業為增加數據庫中的蛋白質種類以及多樣性所做的各種努力:在建立數據庫之初,就確定“開放共享”的基調,所有的基因序列開放,所有的結構開放。數十年的時間里,在數據庫的基礎上,行業通過CASP相互學習,建立起良好的數據共享文化。
為了推動代碼的開放共享,Baker(2024年化學獎獲得者)的實驗室在2021年公布了其名為RoseTTAFold的代碼,隨后DeepMind也共享了其代碼和根據該模型預測的2.14億個蛋白質結構,進一步擴大了AlphaFold的影響,開創了“人人為我,我為人人”的新發展模式:有了AlphaFold數據庫,大家可以搜索構造并得到基于任何單元或序列的蛋白質結構,即便是AlphaFold數據庫中不存在的結構,研究人員也可以將其插入模型中,通過AlphFold的代碼輕易得到結構預測。而共享了算法代碼和其預測的蛋白質結構數據的團隊在其發布AlphaFold2的四年后便獲得諾貝爾獎。
雖然,在上傳發現的蛋白質結構時,結構生物學家們自己也沒有想到會有這么一天,上傳進數據庫的蛋白質結構數據會被人“翻譯”成代碼,通過機器學習算法處理,用于預測新的蛋白質結構,并設計出新的蛋白質結構。因此,今年的獎項不僅是站在巨人的肩膀上,而是在完善的數據設施基礎上,站在了全世界結構生物學家們超大規模成果金字塔的頂端。
討論
20世紀,學界推動政府部署了經由實驗主義方法獲得的蛋白質數據庫,孕育催生了結構生物學領域的新技術和新方法,目前這些新技術已經足夠強大,不僅拿了諾貝爾獎,還將引發制藥工業的產業變革,AI驅動的藥物設計和開發。
通常,基礎技術決定了具體產品的開發方向,而競爭性技術決定了下游市場容量的大小。政府支持產業公共設施與基礎研究,推動成果高效轉化,鼓勵下游競爭性技術的多元發展,以形成有利于個人和經濟社會有利的重磅產品,甚至產生一個全新的蛋白質設計產業。開放共享的產業設施孕育新的基礎性技術,新的基礎性技術催生了下游競爭性技術的百花齊放,其實就是我國政府報告中提到“科技創新帶動產業創新”的發展新路徑。
計算主義者盡可能對當前已有的蛋白質序列和結構庫中的數據進行高效利用,這對帶動實驗主義者產生新的高質量實驗數據也至關重要,而新的數據進而又推動了AI算法的迭代:生物學家將從實驗中發現的蛋白質上傳至蛋白質數據庫,數據庫中高質量的數據集訓練AI算法,形成蛋白質結構預測和設計的新工具,AI新工具進一步引發產生新成果、新應用和新數據,反過來又促進了工具的進化、迭代,循環往復,不斷進步。
不過,雖然今年的化學獎對結構生物學領域已經形成了革命性的影響,但在生命科學領域,結構生物學只是其中的一個學科,生命科學領域的其他領域也會產生新的具有破壞性的AI工具嗎?會有新的天才團隊和世界級的公司出現嗎?畢竟,今年物理學獎人工智能奠基性的成果在生命科學和生物技術領域的重大應用才剛開始呢!讓我們期待著后有中國的來者!
(0)
分享了中國政府抗疫措施、疫情對個人及企業的影響,并闡述了疫情后的“新常態”,分別是人員、物資出入境嚴管,增強全球供應鏈韌性,無接觸商業模式崛起,生命健康基礎設施科技革新等。
閱讀全文