人工智能(AI)解決了生物學的一項重大挑戰(zhàn):預測蛋白質如何從氨基酸的線性鏈卷曲成3D形狀,從而使它們能夠執(zhí)行生活任務。今天,兩年一次的蛋白質折疊競賽的主要結構生物學家和組織者宣布了英國AI公司DeepMind的研究人員所取得的成就。他們說,DeepMind方法將產生深遠的影響,其中包括極大地加快新藥的開發(fā)速度。
歐洲生物信息學研究所名譽主任珍妮特·桑頓說:“ DeepMind團隊所取得的成就非常了不起,它將改變結構生物學和蛋白質研究的未來。” “這是一個已有50年歷史的問題,”馬里蘭大學Shady Grove的結構生物學家,該競賽的共同創(chuàng)始人,蛋白質結構預測的關鍵評估(CASP)的約翰·莫爾特(John Moult)補充道。“我從沒想過我會一輩子看到這個。”
人體使用成千上萬種不同的蛋白質,每種蛋白質包含數(shù)十至數(shù)百個氨基酸。這些氨基酸的順序決定了它們之間無數(shù)的推拉作用如何產生蛋白質的復雜3D形狀,進而決定了它們的功能。了解這些形狀有助于研究人員設計出可以滯留在蛋白質口袋和縫隙中的藥物。能夠合成具有所需結構的蛋白質可以加快酶的發(fā)展,這些酶可以制造生物燃料并降解廢塑料。
數(shù)十年來,研究人員使用諸如X射線晶體學或低溫電子顯微鏡(cryo-EMscopy,cryo-EMscopy)等實驗技術來解密蛋白質的3D結構。但是,這種方法可能要花費數(shù)月或數(shù)年,并且并不總是有效。在生命形式中發(fā)現(xiàn)的超過2億種蛋白質中,只有約170,000種的結構已被解析。
在1960年代,研究人員意識到,如果他們能夠計算出蛋白質序列內的所有個體相互作用,就可以預測其3D形狀。每個蛋白質具有數(shù)百個氨基酸,并且每對氨基酸可以通過多種方式相互作用,但是,每個序列可能的結構數(shù)目是天文數(shù)字。計算科學家跳上了這個問題,但進展緩慢。
1994年,Moult及其同事發(fā)起了CASP,每兩年召開一次。進入者獲得約100種蛋白質的氨基酸序列,其結構未知。一些小組計算每個序列的結構,而另一些小組則通過實驗確定它。然后,組織者將計算預測結果與實驗室結果進行比較,并為預測結果提供全球距離測試(GDT)分數(shù)。穆爾特說,零分到100分的90分以上得分與實驗方法相當。
即使在1994年,小而簡單的蛋白質的預測結構也可以與實驗結果相匹配。但是對于較大的,具有挑戰(zhàn)性的蛋白質,計算的GDT得分約為20,“完全是一場災難”,馬克斯·普朗克發(fā)育生物學研究所的CASP法官和進化生物學家安德烈·盧帕斯說。到2016年,競爭小組的最堅硬蛋白質得分已達到約40,主要是通過從與CASP目標密切相關的已知蛋白質結構中得出的見解。