2023成都積分入學什么時候開始申請
2023-01-31
更新時間:2022-11-02 18:06:44作者:智慧百科
Alex 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI
預測蛋白質結構的AI超級新星AlphaFold,現(xiàn)在遇到了強勁對手。
Meta的蛋白質預測大模型ESMFold,剛剛公布了其最新成果:
6億多種蛋白結構預測結果,而且還是“蛋白質中的暗物質”——宏基因組蛋白(Metagenomic Proteins)。
宏基因組蛋白,簡單來說就是特定時刻下,環(huán)境微生物表達的所有蛋白。
它們來自細菌、病毒和其他尚未確定特征的微生物,數(shù)量非常龐大。
研究它們不僅有助于發(fā)現(xiàn)新的蛋白質結構,還能幫科學家預測并尋到更多微生物,比如RNA病毒等。
要知道,此前AlphaFold背后的公司DeepMind,公布了約2.2億種蛋白質預測結構,幾乎涵蓋了DNA數(shù)據(jù)庫中已知生物體的所有蛋白質。
也就是說,ESMFold現(xiàn)在預測出來的結構數(shù)量,相當于AlphaFold的3倍左右。
Meta的研究團隊還據(jù)此成果提出了一個關于元基因組數(shù)據(jù)庫:ESM Metagenomic Atlas,這也是全球首個大規(guī)模的元基因組蛋白質結構集合。
這些消息一出,很快便收獲了一波關注和驚嘆聲,Nature還為此發(fā)了篇專門的報道。
有意思的是,雖然AlphaFold更早問世,但LeCun曾指出這個思路是他們先提出的:
早在2019年,ESMFold背后的FAIR團隊就先提出了使用預訓練、基于Transformer的語言模型構想,后來該想法被AlphaFold團隊采納。
除了預測的數(shù)量多外,ESMFold還有個明顯優(yōu)勢:速度快。
2周預測出6.17億個蛋白質結構
Meta團隊的研究人員表示,用ESMFold預測超過6.17億個蛋白質的結構,只花了2周時間。
另外,在單個英偉達V100 GPU上,ESMFold可以在14.2秒內對含有384個殘基的蛋白質進行預測,比AlphaFold2快6倍。
而對于較短的序列,它甚至比AlphaFold2快了60倍。
如此神速的背后,一個至關重要的因素就是:ESMFold的輸入基于Transformer語言模型。
看到這點,你或許會疑惑:預測蛋白質結構的模型,和語言模型有什么關系?
一方面,從數(shù)據(jù)層面來看,語言和蛋白質結構都具有離散性。
通俗來說,一個合成結構可以拆成單個成分,就像一段話能拆分出單個字詞、一個蛋白質能拆分出單個氨基酸;且兩個單位之間不存在量的連續(xù)性遞增或遞減關系。
另一方面,上下文和語境制約著某個單詞的含義;相似地,蛋白質的結構和功能制約著序列突變方向。
所以,Meta AI受到語言模型啟發(fā),提出了ESMFold的基本構想。
基于語言模型的開發(fā)出來的ESMFold,主體結構其實和AlphaFold2有不少相似之處——
它也能拆分為四部分:數(shù)據(jù)解析、編碼器、解碼器,以及循環(huán)部分。
其中,數(shù)據(jù)解析部分用于輸入序列和數(shù)據(jù)庫的解析,為編碼器提供輸入。
△ESMFold模型結構示意圖
巴特!比起AlphaFold 2,ESMFold用于推理的神經(jīng)網(wǎng)絡結構結構被簡化了:
ESMFold消除了對明確同源序列(以MSA形式)輸入的需求,并且也不用進行Jax圖編譯,所以可以省下了不少時間。
這樣不僅可以大幅縮短大型基因組序列數(shù)據(jù)庫的構建時長;而且能在相同時間內預測出更多結構。
150億的參數(shù)量
除了基于語言模型,還有一點也不容忽視:ESMFold的參數(shù)量巨大。
在今年早些時候,Meta AI團隊宣布ESMFold模型更新了:
ESM2的參數(shù)量直接飆升到150億,一躍成為迄今為止最大的蛋白質語言模型。(AlphaFold2的參數(shù)量為9300萬左右)
一般來說,模型的參數(shù)量越大,意味它其能運用的函數(shù)越多,進而使其學習的準確率和精度大大提升。
這一點在蛋白質結構預測AI上也得到了印證:
ESMFold模型的參數(shù)量達150億之后,其分辨率更高了,能達到原子級別。
其中,對于單序列輸入,ESMFold的精度優(yōu)于AlphaFold2——
通過這個150億參數(shù)的ESM2,ESMFold只用一個序列作為輸入,就能有效預測端到端的3D結構;而AlphaFold2則需要多序列輸入才能有良好表現(xiàn)。
△單序列輸入時,ESMFold預測精度更高
不過在多序列輸入的情況下,ESMFold的精度和AlphaFold2相比,還是略有差距。
此外,在蛋白質結構預測的準確性方面,ESMFold和AlphaFold2的表現(xiàn)不相上下。
不過需要說明的一點是,Meta的研究人員也表示,這6億多個預測出來的蛋白質結構目前還沒有被定性,還需后續(xù)的核驗、分類等。
話說這些年,蛋白質預測模型以及其背后的計算生物學可謂方興未艾,“AI For Science”正在發(fā)生。
先前科學家們經(jīng)過幾十年的努力,只覆蓋了人類蛋白質序列中17%的氨基酸殘基;而AlphaFold在2018年才官宣,至今已經(jīng)預測出了人類98.5%的蛋白質結構。
至于ESMFold,該研究團隊的領導者Alexander Rives指出:
對于蛋白質結構解析和探索未知蛋白質結構,ESMFold都算科學家們的得力助手。
目前ESM2模型的部分代碼已在GitHub上免費開源,感興趣的伙伴們可以去看看!
代碼傳送門:
https://github.com/facebookresearch/esm
模型傳送門:
https://esmatlas.com