3 月 1 日消息,微軟研究院于 2 月 20 日發(fā)布博文,宣布推出 AI 模型 BioEmu-1,能夠預(yù)測蛋白質(zhì)隨時(shí)間推移的運(yùn)動(dòng)和形狀變化,在生物醫(yī)學(xué)、藥物發(fā)現(xiàn)和結(jié)構(gòu)生物學(xué)領(lǐng)域帶來新可能。
借助 AI 探究蛋白質(zhì)
從形成肌肉纖維到保護(hù)我們免受疾病侵害,在幾乎所有生物過程中,蛋白質(zhì)都發(fā)揮著至關(guān)重要的作用。
科學(xué)家近年來利用深度學(xué)習(xí),在研究蛋白質(zhì)結(jié)構(gòu)方面已取得重大進(jìn)展,能夠根據(jù)氨基酸序列準(zhǔn)確預(yù)測蛋白質(zhì)結(jié)構(gòu)。然而,僅從氨基酸序列預(yù)測單一蛋白質(zhì)結(jié)構(gòu)就像觀看電影的單幀畫面,只提供了一個(gè)高度靈活分子的截圖。
微軟 BioEmu-1
不同于 DeepMind 的 AlphaFold 專注于確定靜態(tài)蛋白質(zhì)結(jié)構(gòu),BioEmu-1 模擬蛋白質(zhì)在不同構(gòu)象之間的動(dòng)態(tài)轉(zhuǎn)換,為理解蛋白質(zhì)運(yùn)動(dòng)、設(shè)計(jì)有效治療方案提供了新的工具。
AlphaFold 3 在結(jié)構(gòu)生物學(xué)領(lǐng)域取得了重大進(jìn)展,改進(jìn)了蛋白質(zhì)與 DNA、RNA 和小分子的相互作用模型,但它無法預(yù)測蛋白質(zhì)隨時(shí)間的變化。
BioEmu-1 彌補(bǔ)了這一不足,它可以生成多個(gè)可能的構(gòu)象,而不僅僅是單一的最佳擬合結(jié)構(gòu),這在藥物開發(fā)中尤為重要。
BioEmu-1 利用生成式深度學(xué)習(xí),從大型數(shù)據(jù)集中學(xué)習(xí)模式,然后生成與這些模式一致的新樣本,通過結(jié)合靜態(tài)蛋白質(zhì)結(jié)構(gòu)、分子動(dòng)力學(xué)模擬數(shù)據(jù)和實(shí)驗(yàn)穩(wěn)定性數(shù)據(jù)進(jìn)行訓(xùn)練。
BioEmu-1 的核心機(jī)制是一個(gè)擴(kuò)散模型,它迭代地生成蛋白質(zhì)結(jié)構(gòu)并根據(jù)學(xué)習(xí)到的約束條件提高其準(zhǔn)確性。BioEmu-1 的關(guān)鍵輸出是平衡系綜的預(yù)測和自由能預(yù)測。
BioEmu-1 使用三種類型的數(shù)據(jù)集進(jìn)行訓(xùn)練:(1)AlphaFold 數(shù)據(jù)庫 (AFDB) 結(jié)構(gòu);(2)廣泛的 MD 模擬數(shù)據(jù)集;(3)實(shí)驗(yàn)性蛋白質(zhì)折疊穩(wěn)定性數(shù)據(jù)集。
通過這些數(shù)據(jù)集的訓(xùn)練,BioEmu-1 可以識(shí)別蛋白質(zhì)序列映射到多個(gè)不同結(jié)構(gòu),預(yù)測合理的結(jié)構(gòu)變化,并學(xué)習(xí)以正確的概率對(duì)折疊和未折疊結(jié)構(gòu)進(jìn)行采樣。
BioEmu-1 每小時(shí)可生成數(shù)千個(gè)蛋白質(zhì)結(jié)構(gòu)樣本,相比需要數(shù)周時(shí)間的傳統(tǒng)分子動(dòng)力學(xué)模擬,顯著加快了研究速度并降低了計(jì)算成本,其預(yù)測自由能的誤差幅度在 1 kcal / mol 以內(nèi),與傳統(tǒng)分子動(dòng)力學(xué)模擬相當(dāng),但計(jì)算成本卻顯著降低。
【來源:IT之家】