創(chuàng)藥新聲

News

接力AlphaFold!星藥科技重磅發(fā)布TBind-開啟分子蛋白復(fù)合物結(jié)構(gòu)預(yù)測新紀(jì)元

接力AlphaFold!星藥科技重磅發(fā)布TBind-開啟分子蛋白復(fù)合物結(jié)構(gòu)預(yù)測新紀(jì)元

導(dǎo)語

繼2018年、2020年的兩代AlphaFold的橫空出世后,蛋白質(zhì)結(jié)構(gòu)預(yù)測已經(jīng)接近實(shí)驗精度,為計算賦能藥物研發(fā)領(lǐng)域打下了堅實(shí)基礎(chǔ)。在藥物研發(fā)漫長的研發(fā)環(huán)節(jié)中,分子與蛋白質(zhì)的相互作用預(yù)測是下一個計算賦能藥物研發(fā)領(lǐng)域的“圣杯”。近日,星藥科技預(yù)發(fā)表了 Trigonometry Aware Neural NetworK for Drug-Protein Binding Structure Prediction。該模型是全球首個能同時預(yù)測小分子和靶蛋白三維結(jié)合構(gòu)象和結(jié)合親和力的深度表征學(xué)習(xí)框架,大幅超越現(xiàn)存方法的最好結(jié)果。TBind采用端到端的數(shù)據(jù)驅(qū)動范式,結(jié)合物理啟發(fā)式的幾何圖神經(jīng)網(wǎng)絡(luò),打通了復(fù)合物三維結(jié)合模式及結(jié)合強(qiáng)度的雙重預(yù)測,實(shí)現(xiàn)了對國際商業(yè)分子對接軟件精度和效率的雙超越,為分子蛋白相互作用預(yù)測提供了國產(chǎn)首個突破性方案。繼AlphaFold之后, 將計算驅(qū)動的藥物研發(fā)帶入新的紀(jì)元。

藥物發(fā)現(xiàn)是一項極具挑戰(zhàn)性的任務(wù)。在龐大的化學(xué)空間(約1060個類藥物分子)中,只有一小部分能與特定的生物靶點(diǎn)結(jié)合并產(chǎn)生治療效果。目前的藥物一般以蛋白質(zhì)作為靶分子,通過設(shè)計與它相互作用的化合物小分子來治療疾病。因此,發(fā)現(xiàn)能與蛋白質(zhì)分子相互作用的小分子化合物并闡明其與靶蛋白的結(jié)合模式對于新藥研發(fā)至關(guān)重要。

目前,小分子和蛋白質(zhì)的結(jié)合模式很大程度上是通過使用實(shí)驗和計算方法實(shí)現(xiàn)的,這些方法可以幫助了解小分子配體和其靶蛋白之間的關(guān)鍵相互作用,以指導(dǎo)分子的優(yōu)化,達(dá)到期望的效力和選擇性。常見的實(shí)驗方法如X射線衍射、核磁共振晶體學(xué),以及最近的冷凍電鏡(EM)等技術(shù)已經(jīng)產(chǎn)生了數(shù)以萬計的小分子-蛋白復(fù)合物結(jié)構(gòu),為闡明藥物和蛋白質(zhì)相互作用的生物學(xué)機(jī)制打下了堅實(shí)的基礎(chǔ)。同樣,計算方法如分子對接技術(shù),使研究者們能夠探索尚未形成共晶結(jié)構(gòu)的新靶標(biāo)與巨量尚未合成的虛擬化合物之間的相互作用關(guān)系,也在小分子-蛋白質(zhì)結(jié)合模式研究上發(fā)揮著重要作用。


? ??

分子對接軟件的現(xiàn)狀與發(fā)展

?

分子對接技術(shù)有著20年以上的歷史,已經(jīng)成為了基于靶點(diǎn)的藥物設(shè)計(Target-based Drug Discovery, TDD)范式中的一部分。對接軟件的核心主要有兩部分:一是設(shè)計力場,對藥物-蛋白復(fù)合物結(jié)構(gòu)打分。二是設(shè)計采樣算法,對復(fù)合物構(gòu)象采樣。在傳統(tǒng)力場設(shè)計中,為了保證打分速度,將本質(zhì)上是一個多體問題的相互作用近似為基于原子對能量的線性累加。近幾年在機(jī)器學(xué)習(xí)的加持下,分子對接方法在對多體問題的近似上雖然有了更好的表現(xiàn),但并沒有從根本上改變一直以來基于原子對能量的線性累加打分、再通過構(gòu)象采樣獲得最終復(fù)合物的流程。這使得分子對接方法的精度和速度都已無法充分滿足現(xiàn)代藥物設(shè)計的需求。

2018年,DeepMind團(tuán)隊推出的AlphaFold首次亮相便在國際蛋白結(jié)構(gòu)預(yù)測大賽CASP13上以較大優(yōu)勢摘取桂冠;兩年后,AlphaFold 2通過精妙的模型設(shè)計,使得蛋白質(zhì)結(jié)構(gòu)預(yù)測領(lǐng)域邁出了驚人的一步,達(dá)到了與實(shí)驗精度相近的水平。兩代AlphaFold通過深度學(xué)習(xí)方法,幾乎解決了蛋白質(zhì)結(jié)構(gòu)預(yù)測這一困擾了科學(xué)家們70年的難題。而下一個計算驅(qū)動的藥物研發(fā)領(lǐng)域的“圣杯”,就是橫亙在藥物研發(fā)與蛋白結(jié)構(gòu)之間的關(guān)鍵問題:

是否能通過AI方法準(zhǔn)確地預(yù)測出小分子和蛋白質(zhì)的相互作用關(guān)系,即兩者之間的結(jié)合模式及結(jié)合強(qiáng)度?

?

小分子-蛋白結(jié)合預(yù)測新范式

?

為了解決上述痛點(diǎn),賦能新藥研發(fā),繼四月份與阿斯利康全球研發(fā)中心聯(lián)合發(fā)布了基于結(jié)構(gòu)的深度親和力預(yù)測模型STAMP-DPI,星藥科技聯(lián)合復(fù)旦大學(xué)、中山大學(xué)研究人員,最新發(fā)布了基于三體深度神經(jīng)網(wǎng)絡(luò)(Trigonometry Aware Neural NetworK)的TBind v1.0.1,專攻小分子配體-蛋白質(zhì)復(fù)合物三維結(jié)構(gòu)預(yù)測。不同于傳統(tǒng)計算化學(xué)方法和近年來興起的單一親和力預(yù)測模型,TBind采用端到端的數(shù)據(jù)驅(qū)動范式,結(jié)合物理啟發(fā)式的幾何圖神經(jīng)網(wǎng)絡(luò),打通了復(fù)合物三維結(jié)合模式及結(jié)合強(qiáng)度的雙重預(yù)測,實(shí)現(xiàn)了對商業(yè)級分子對接軟件精度、速度的雙超越,為分子蛋白復(fù)合物結(jié)構(gòu)預(yù)測提供了首個突破性國產(chǎn)方案。

受啟發(fā)于AlphaFold2的氨基酸內(nèi)“Triangle Multiplicative Update”架構(gòu),TBind將該模塊有機(jī)地拓展到小分子和靶蛋白的分子間相互作用中,進(jìn)行了多處升級,使得模型突破傳統(tǒng)分子間力場的限制,有了直接擬合多體效應(yīng)的能力且并未顯著增加模型的復(fù)雜性。在分子間的三體神經(jīng)網(wǎng)絡(luò)模塊基礎(chǔ)上,TBind還自主研發(fā)了基于對比學(xué)習(xí)和分而治之思想的蛋白區(qū)塊化技術(shù),根據(jù)蛋白結(jié)構(gòu)功能區(qū)實(shí)行分別關(guān)注,對保守區(qū)域進(jìn)行局部信息提取,在結(jié)構(gòu)數(shù)據(jù)下實(shí)現(xiàn)了隱式數(shù)據(jù)增強(qiáng)的效果; 研究小組還提出了最大邊緣對比性親和力損失函數(shù)(max-margin contrastive affinity loss)以驅(qū)動模型充分利用親和力信息和全局三維結(jié)構(gòu)信息。對于局部信息和全局信息的權(quán)衡極大程度上提高了TBind的精度和泛化性能,使其能夠?qū)π路f的蛋白口袋和新型的結(jié)合模式做出快速且有效的預(yù)測。

接力AlphaFold!星藥科技重磅發(fā)布TBind-開啟分子蛋白復(fù)合物結(jié)構(gòu)預(yù)測新紀(jì)元

TBind模型示意簡圖。模型的輸入為一個蛋白質(zhì)三維結(jié)構(gòu)和分子三維結(jié)構(gòu),輸出是兩者之間的結(jié)合模式和結(jié)合強(qiáng)度。

?

摒棄傳統(tǒng)采樣方法

全面超越行業(yè)表現(xiàn)

?

在行業(yè)標(biāo)準(zhǔn)測試集PDBBind上,TBind的性能大幅超過了現(xiàn)存最優(yōu)的深度學(xué)習(xí)方法(由MIT Tommi Jaakkola組領(lǐng)銜開發(fā)的EQUIBIND,ICML 2022[1])以及多款國際商業(yè)、學(xué)術(shù)對接軟件(包括GLIDE, VINA, SMINA, GINA等)。TBind使用2020年以前發(fā)表的17787個小分子復(fù)合物三維結(jié)構(gòu)進(jìn)行訓(xùn)練。在對2020年之后發(fā)布的142個訓(xùn)練集未見過的新蛋白質(zhì)形成的復(fù)合三維結(jié)構(gòu)預(yù)測任務(wù)中,TBind將LigandRMSD小于5?的比例從約30%提升至56%?[2];對于結(jié)合中心的預(yù)測與真實(shí)中心距離小于5?的比例更是從48%提升至76%。

接力AlphaFold!星藥科技重磅發(fā)布TBind-開啟分子蛋白復(fù)合物結(jié)構(gòu)預(yù)測新紀(jì)元

在PDBBind新蛋白測試集中,預(yù)測結(jié)構(gòu)與真實(shí)共晶結(jié)構(gòu)的RMSD小于5?的比例。TBind顯著優(yōu)于其他模型。

接力AlphaFold!星藥科技重磅發(fā)布TBind-開啟分子蛋白復(fù)合物結(jié)構(gòu)預(yù)測新紀(jì)元


在PDBBind新蛋白測試集中,預(yù)測配體質(zhì)心與真實(shí)質(zhì)心距離小于5?的比例。TBind顯著優(yōu)于其他模型。

由于模型摒棄了繁瑣的傳統(tǒng)采樣方法,利用數(shù)據(jù)驅(qū)動的AI勢能面進(jìn)行結(jié)構(gòu)生成,所以在預(yù)測和篩選的效率上也得到了大幅度提升,局對接的任務(wù)中每個分子僅需要0.5秒鐘,是學(xué)術(shù)軟件VINA的400分之一,商業(yè)軟件GLIDE的2000分之一。

接力AlphaFold!星藥科技重磅發(fā)布TBind-開啟分子蛋白復(fù)合物結(jié)構(gòu)預(yù)測新紀(jì)元

完成一次對接打分的時間。TBind僅需要0.5秒鐘完成預(yù)測,顯著快于傳統(tǒng)對接方法。

?

多場景應(yīng)用

覆蓋正構(gòu)和別構(gòu)口袋

?

1. 局部對接(local docking)任務(wù)比較

TDD常見的場景之一是已知蛋白口袋的情況下利用計算工具進(jìn)行局部對接以預(yù)測新分子和靶蛋白的相互作用關(guān)系。在第一個例子中,用于治療慢性髓性白血?。–ML)的達(dá)沙替尼(Dasatinib)與蛋白ABL1結(jié)合結(jié)構(gòu)(PDB 7N9G,于2022年4月公開)中GLIDE預(yù)測構(gòu)象與真實(shí)結(jié)晶構(gòu)象頭尾調(diào)換,導(dǎo)致預(yù)測結(jié)構(gòu)與真實(shí)結(jié)構(gòu)的RMSD差異高達(dá)11?。而TBind正確地預(yù)測出了分子的構(gòu)象,與晶體結(jié)構(gòu)的RMSD差異僅1.1? 。第二個例子是2022年6月剛剛公開的TRK蛋白與一個新型Type-II型抑制劑相互結(jié)合的結(jié)構(gòu)(PDB 7XAF)。GLIDE的預(yù)測結(jié)果同樣和真實(shí)構(gòu)象有比較大的偏差,而TBind和真實(shí)結(jié)構(gòu)幾乎一致。

接力AlphaFold!星藥科技重磅發(fā)布TBind-開啟分子蛋白復(fù)合物結(jié)構(gòu)預(yù)測新紀(jì)元

2. 全局對接(global docking)任務(wù)比較

在First-in-Class的管線項目中,對于新靶蛋白的開發(fā)時常會出現(xiàn)結(jié)合位點(diǎn)不明確的情況,傳統(tǒng)對接方法往往很難判斷出正確的結(jié)合模式。由于模型使用了蛋白區(qū)塊化技術(shù),TBind具備更強(qiáng)的全局預(yù)測能力,從而能夠更好地捕捉別構(gòu)口袋的信息。PDB 6K1S和6QRG是PDBBind測試集中的兩個代表案例。PRMT5蛋白擁有多個結(jié)合口袋,其新發(fā)布的PDB共晶結(jié)構(gòu)6K1S發(fā)現(xiàn)了一個全新結(jié)合位點(diǎn)。TBind雖然從未見過結(jié)合該別構(gòu)口袋的小分子,但是仍然正確的定位到了真實(shí)結(jié)合的位置。而其他方法則更傾向于常見的正構(gòu)位點(diǎn)。在第二個案例中,TrmD蛋白和其配體小分子皆與訓(xùn)練集不同源,TBind依舊可以正確找到結(jié)合位點(diǎn),而傳統(tǒng)分子對接方法無法找到正確的結(jié)合口袋[2]。

接力AlphaFold!星藥科技重磅發(fā)布TBind-開啟分子蛋白復(fù)合物結(jié)構(gòu)預(yù)測新紀(jì)元

?

開源版本+商業(yè)版本

滿足不同需求

?

目前研究團(tuán)隊在GitHub發(fā)布了免費(fèi)開源測試版本TBind v0.5.0,并提供了案例展示,點(diǎn)擊文末“閱讀原文”。

接力AlphaFold!星藥科技重磅發(fā)布TBind-開啟分子蛋白復(fù)合物結(jié)構(gòu)預(yù)測新紀(jì)元

為方便大家快速嘗鮮,團(tuán)隊提供了一個簡單使用案例,只需要輸入蛋白結(jié)構(gòu)和分子序列表達(dá)式,即可以進(jìn)行深度分子對接。(詳情請見TBind Github)??

TBind商業(yè)版本v1.0.1已經(jīng)部署于星藥科技打造新一代智能計算平臺M1,可在短時間內(nèi)完成億級超高通量藥物虛擬篩選,賦能苗頭化合物發(fā)現(xiàn)、先導(dǎo)化合物優(yōu)化等藥物研發(fā)多個關(guān)鍵環(huán)節(jié)。商業(yè)合作伙伴請聯(lián)系m1@galixir.com獲取更多使用信息。

?

泛化TBind能力

或可帶來更多驚喜

?

TBind方法不僅可以應(yīng)用在小分子和蛋白結(jié)合領(lǐng)域,也可以泛化到蛋白復(fù)合物結(jié)合、核酸蛋白結(jié)合等分子間相互作用問題上。星藥科技將繼續(xù)保持創(chuàng)新精神,將AI技術(shù)與藥物實(shí)踐場景深度結(jié)合,不斷提升預(yù)測精度與速度,支持更多的應(yīng)用場景。

TBind v1.0.1的發(fā)布,標(biāo)志著星藥科技已具備國際頂尖的小分子蛋白結(jié)合預(yù)測能力。作為小分子藥物設(shè)計的關(guān)鍵環(huán)節(jié),TBind已與星藥科技的蛋白結(jié)構(gòu)建模算法[3], 分子設(shè)計算法[4,5],性質(zhì)預(yù)測算法[6,7],逆合成分析算法[8,9]及智能計算平臺M1有機(jī)結(jié)合,配合生物實(shí)驗平臺,形成“AI-計算-實(shí)驗迭代”三位一體的藥物研發(fā)新范式。星藥科技將繼續(xù)聚焦能為醫(yī)藥產(chǎn)業(yè)帶來更多增益的差異化管線,尤其是未成藥、難成藥靶點(diǎn)開發(fā)項目,高效精準(zhǔn)預(yù)測分子相互作用,拓展傳統(tǒng)化學(xué)的想象空間,探索更多新穎的藥物分子。讓世界遠(yuǎn)離病痛,讓新藥觸手可及。

引用

[1]St?rk, Hannes, et al. 'Equibind: Geometric deep learning for drug binding structure prediction.' ICML (2022).

[2]Wei, Lu, et al. “TANKBind: Trigonometry-Aware Neural NetworKs for Drug-Protein Binding Structure Prediction” bioRxiv (2022).

[3]https://mp.weixin.qq.com/s/FR0ZS5NMG-xpzVmgUYAliQ

[4]Yang, Yuyao, et al. 'SyntaLinker: automatic fragment linking with deep conditional transformer neural networks.' Chemical science 11.31 (2020): 8312-8322.

[5]Wang, Jiahao, et al. 'Meta learning for low-resource molecular optimization.' Journal of Chemical Information and Modeling 61.4 (2021): 1627-1636.

[6]Chen, Jianwen, et al. 'Learning Attributed Graph Representations with Communicative Message Passing Transformer.' IJCAI (2021).

[7]Rao, Jiahua, et al. 'Molrep: A deep representation learning library for molecular property prediction.' bioRxiv (2021).

[8]Shuangjia, Zheng, et al. “Deep learning driven biosynthetic pathways navigation for natural products with BioNavi-NP” Nature Communication (2022)

[9]Chen, Binghong, et al. 'Retro*: learning retrosynthetic planning with neural guided A* search.' International Conference on Machine Learning. ICML, 2020.


關(guān)于星藥科技


星藥科技(Galixir)成立于2019年,是一家使用尖端人工智能技術(shù)賦能藥物研發(fā)的公司。星藥通過使用人工智能的前沿算法,結(jié)合計算化學(xué)、藥物化學(xué)和生物學(xué)的工具及經(jīng)驗,全方位攻克小分子藥物早期研發(fā)流程中的疑難問題,快速發(fā)現(xiàn)活性高、成藥性好且結(jié)構(gòu)新穎的候選分子。星藥正在和國內(nèi)外藥企以及研究機(jī)構(gòu)合作推進(jìn)多個藥物研發(fā)管線,覆蓋中樞神經(jīng)系統(tǒng)疾病、自體免疫類疾病、腫瘤、呼吸系統(tǒng)疾病等不同疾病領(lǐng)域,作用機(jī)制包括抑制劑和激動劑等不同類別。星藥將單個臨床前藥物研發(fā)管線的成本和時間大幅降低和縮短,使得同時儲備多條藥物研發(fā)管線、優(yōu)化整體戰(zhàn)略布局都成為可能。