|
顛覆生命科學(xué)!AlphaFold預(yù)測完整人類蛋白質(zhì)組結(jié)構(gòu)神經(jīng)網(wǎng)絡(luò)AlphaFold的“顛覆性”數(shù)據(jù)庫預(yù)測出了智人和20種模式生物的逾35萬個結(jié)構(gòu)。 人類基因組攜帶了逾2萬個蛋白質(zhì)的指令,但只有約1/3蛋白質(zhì)的三維結(jié)構(gòu)通過實驗方法得到了解析,很多時候,這些蛋白質(zhì)的結(jié)構(gòu)只確定了其中一部分。
現(xiàn)在,一種名為AlphaFold的人工智能(AI)工具改變了現(xiàn)狀。這款工具由位于倫敦的谷歌姐妹公司DeepMind開發(fā),其預(yù)測的結(jié)構(gòu)幾乎覆蓋了完整的人類蛋白質(zhì)組(蛋白質(zhì)組是一個生物表達(dá)的全部蛋白質(zhì))。除此之外,AlphaFold還預(yù)測了許多其他生物的幾乎整個蛋白質(zhì)組——從小鼠到玉米再到瘧原蟲(見“折疊選項”)。 這次預(yù)測的逾35萬個蛋白質(zhì)結(jié)構(gòu)保存在一個公用數(shù)據(jù)庫中,規(guī)模將在年底擴(kuò)大到1.3億個。雖然這些預(yù)測的準(zhǔn)確度有高有低,但研究人員認(rèn)為這些數(shù)據(jù)或為生命科學(xué)領(lǐng)域帶來翻天覆地的變化。
“在我看來,這絕對是顛覆性的成果�!绷私馑械鞍踪|(zhì)的結(jié)構(gòu)能讓你弄清楚它們的機(jī)理�!眰惗卮髮W(xué)學(xué)院(UCL)的計算生物學(xué)家Christine Orengo說。 “這是迄今為止AI在推動科學(xué)進(jìn)步方面做出的最大貢獻(xiàn)。我覺得這么說一點兒也不夸張�!盌eepMind聯(lián)合創(chuàng)始人、首席執(zhí)行官Demis Hassabis說。 但研究人員強(qiáng)調(diào)說,這個數(shù)據(jù)泵只是一個開始,而不是結(jié)束。他們希望接下來能驗證這些預(yù)測,更重要的是,將這些預(yù)測應(yīng)用到目前尚無法實現(xiàn)的實驗中�!皳碛羞@個體量的數(shù)據(jù)是了不起的第一步�!眰惗卮髮W(xué)學(xué)院計算生物學(xué)家David Jones說。Jones曾為AlphaFold的上一次迭代擔(dān)任顧問。 獲獎預(yù)測 去年,DeepMind在生命科學(xué)領(lǐng)域一鳴驚人——它的最新版AlphaFold在兩年一度的蛋白質(zhì)預(yù)測大賽CASP(蛋白質(zhì)結(jié)構(gòu)預(yù)測關(guān)鍵評估)中所向披靡。這個已舉辦多屆的賽事向來是學(xué)術(shù)人員的競技場,比賽要求參賽團(tuán)隊對已經(jīng)通過實驗解析但尚未公布的蛋白質(zhì)結(jié)構(gòu)進(jìn)行預(yù)測。 AlphaFold的一些預(yù)測結(jié)果與準(zhǔn)確度很高的實驗?zāi)P拖喈?dāng),這讓一些研究人員感嘆AlphaFold將帶來劃時代的影響力。上上周,DeepMind發(fā)布了最新版AlphaFold的源代碼,以及對其開發(fā)過程的詳細(xì)闡述[1](許多學(xué)術(shù)團(tuán)隊已經(jīng)開始利用這些資源進(jìn)行重要預(yù)測)。在公開AlphaFold代碼的準(zhǔn)備工作中,DeepMind還對其做了優(yōu)化,讓代碼運行起來更高效。CASP比賽中的一些結(jié)構(gòu)曾讓AlphaFold花了好幾天的時間進(jìn)行計算,但最新的AlphaFold只要幾分鐘到幾小時就能完成計算。 效率的提升讓DeepMind團(tuán)隊可以預(yù)測由人類基因組編碼和20個模式生物的幾乎所有已知蛋白。這些結(jié)構(gòu)數(shù)據(jù)儲存在英國EMBL-EBI(歐洲分子生物學(xué)實驗室歐洲生物信息研究所)托管的一個數(shù)據(jù)庫中。 AlphaFold預(yù)測的結(jié)構(gòu)覆蓋了98.5%的已知人類蛋白和其他生物的同比例蛋白,除此之外,AlphaFold還能評估其預(yù)測結(jié)果的可信度。DeepMind的工程師Kathryn Tunyasuvunakool說:“我們想讓實驗人員和生物學(xué)家清楚地知道,哪些預(yù)測部分是可信的。”Tunyasuvunakool是DeepMind發(fā)表在《自然》的描述蛋白質(zhì)組預(yù)測論文的第一作者[2]。以人類蛋白質(zhì)組為例,AlphaFold對58%的單個氨基酸位置的預(yù)測準(zhǔn)確度足夠高,可以用來判斷蛋白質(zhì)折疊形狀,Tunyasuvunakool說。其中一部分預(yù)測——占整體的36%——的潛在準(zhǔn)確度較高,或能揭示對藥物設(shè)計有用的詳細(xì)原子特征,比如酶的激活位點。 即使準(zhǔn)確度稍低的預(yù)測結(jié)果也能帶來重要信息。生物學(xué)家認(rèn)為一大部分人類蛋白質(zhì)和其他真核生物(細(xì)胞有細(xì)胞核的生物)的蛋白質(zhì)擁有一些固有無序的區(qū)域,只是為了配合其他分子才形成了一些明確的結(jié)構(gòu)。AlphaFold首席研究員John Jumper說:“許多蛋白質(zhì)在溶液里扭來扭去,沒有固定的結(jié)構(gòu)�!盇lphaFold預(yù)測的一些可信度不高的區(qū)域正好是生物學(xué)家認(rèn)為無序的區(qū)域,DeepMind科學(xué)AI主管Pushmeet Kohli說。 研究人員認(rèn)為,確定單個蛋白質(zhì)如何與其他細(xì)胞組分相互作用是AlphaFold面臨的最大難題之一。CASP大賽要求預(yù)測的大部分結(jié)構(gòu)都是一個蛋白的獨立折疊單元,也稱為結(jié)構(gòu)域。而人類蛋白質(zhì)組和其他微生物蛋白質(zhì)組的一些蛋白有多個半獨立折疊的結(jié)構(gòu)域。人類細(xì)胞還含有多個互作蛋白鏈組成的分子,比如細(xì)胞膜上的受體。 數(shù)據(jù)洪流 到今年年底,上周儲存的約36.5萬個預(yù)測結(jié)構(gòu)將擴(kuò)充至1.3億個,這個數(shù)量接近人類已知蛋白總量的一半,EMBL-EBI的結(jié)構(gòu)生物信息學(xué)家Sameer Velankar說。隨著新蛋白的發(fā)現(xiàn)和預(yù)測能力的提高,這個數(shù)據(jù)庫還會一直更新。Tunyasuvunakool說:“你本來不會相信有朝一日能獲得這樣的資源庫�!彼惹邢胫姥芯咳藛T會帶來哪些洞察。 研究人員已經(jīng)在利用AlphaFold和相關(guān)工具理解來自X射線晶體學(xué)和冷凍電鏡的實驗數(shù)據(jù)。科羅拉多大學(xué)博爾德分校生物化學(xué)家Marcelo Sousa利用AlphaFold和細(xì)菌用來逃避抗生素黏菌素的蛋白質(zhì)X射線數(shù)據(jù)來制作模型。實驗?zāi)P椭信cAlphaFold預(yù)測結(jié)果不同的部分一般也是AlphaFold認(rèn)為可信度不高的區(qū)域,Sousa認(rèn)為這顯示出AlphaFold能準(zhǔn)確預(yù)測自己的極限。 不過,生物學(xué)家仍想將這些預(yù)測結(jié)果對照實驗數(shù)據(jù),從而對預(yù)測可靠性更有把握,英國MRC分子生物學(xué)實驗室的結(jié)構(gòu)生物學(xué)家Venki Ramakrishnan說�!拔覀冃枰軌蛐湃芜@些數(shù)據(jù)�!監(jiān)rengo解釋道。 Jones對AlphaFold的能力印象深刻。但他認(rèn)為AlphaFold預(yù)測的許多模型使用學(xué)界之前開發(fā)的軟件也能計算出來。“之前軟件給出的結(jié)果對于大部分蛋白質(zhì)來說可能已經(jīng)夠好了,完全能夠勝任一些研究工作。”那些下定決心一定要得到某些蛋白結(jié)構(gòu)的研究人員利用實驗方法或許也能成功。 不過,一下子多了這么多蛋白質(zhì)結(jié)構(gòu),很可能會帶來生物學(xué)的“范式轉(zhuǎn)移”,美國哥倫比亞大學(xué)從事蛋白質(zhì)結(jié)構(gòu)預(yù)測的計算生物學(xué)家Mohammed AlQuraishi說。為了準(zhǔn)確預(yù)測如此體量的蛋白質(zhì)結(jié)構(gòu),他的領(lǐng)域付出了大量時間和精力,目前還沒想好怎么利用這些資源�!爸坝玫鞍踪|(zhì)序列做的研究,現(xiàn)在可以用蛋白質(zhì)結(jié)構(gòu)來做了。” Orengo希望這個數(shù)據(jù)庫能幫她更好地理解蛋白質(zhì)結(jié)構(gòu)約束。她將一個已知蛋白質(zhì)的數(shù)據(jù)庫繪制成了5000個“結(jié)構(gòu)家族”,但數(shù)據(jù)庫中約一半的蛋白質(zhì)只能被排除在外,因為這些蛋白無法在已經(jīng)確定的結(jié)構(gòu)中找到類似物。AlphaFold的預(yù)測結(jié)果或能揭示一些新結(jié)構(gòu),她說,“我們這下可以看到折疊空間的真面目了�!� Jones預(yù)計AlphaFold會讓許多生物學(xué)家思考要怎樣利用這么多結(jié)構(gòu)和可以輕松得到的更多結(jié)構(gòu)。他說:“今后會有很多學(xué)術(shù)會議。我們現(xiàn)在有1.3億個模型了,這會如何改變我們對生物學(xué)的認(rèn)知?可能不會有改變,但我覺得會。” 參考文獻(xiàn): 1. Jumper, J. et al. Nature https://doi.org/10.1038/s41586-021-03819-2 (2021). 2. Tunyasuvunakool, K. et al. Nature https://doi.org/10.1038/s41586-021-03828-1 (2021). 原文以DeepMind’s AI predicts structures for a vast trove of proteins標(biāo)題發(fā)表在2021年7月22日的《自然》的新聞版塊上 |


