新藥發(fā)現(xiàn)的速度在不斷提升,但耐藥、治療無效仍然是困擾大多數(shù)患者的艱難問題。發(fā)現(xiàn)新的聯(lián)合用藥組合,能為患者帶來新的可能,也對進一步設(shè)計全新藥物與現(xiàn)有藥物聯(lián)合作用提供了明確的方向。
作為突破創(chuàng)新藥物研發(fā)平臺,百圖生科以發(fā)現(xiàn)多靶點組合、設(shè)計能實現(xiàn)復(fù)雜調(diào)控機制的精準(zhǔn)藥物為目標(biāo),已在藥物組合研究上實現(xiàn)了一系列的突破。
近日,一項由百圖生科聯(lián)合香港中文大學(xué)、阿卜杜拉國王科技大學(xué)等學(xué)術(shù)機構(gòu)共同完成的新研究發(fā)表在預(yù)印本網(wǎng)站arXiv。
該研究提出的新方法基于超大規(guī)模AI預(yù)訓(xùn)練技術(shù),一方面,不僅能實現(xiàn)對聯(lián)合用藥效果的行業(yè)最佳預(yù)測準(zhǔn)確率——新方法比此前行業(yè)中的最佳模型提升10%以上,相較經(jīng)典機器學(xué)習(xí)方法提升30%以上;另一方面,還能對訓(xùn)練數(shù)據(jù)中未見過的新藥物或細胞系給出理想的聯(lián)合用藥效果預(yù)測——與此前行業(yè)最佳的模型相比,新模型的AU ROC超過了近15%。

多模態(tài)+圖網(wǎng)絡(luò)+預(yù)訓(xùn)練,“三位一體”實現(xiàn)精準(zhǔn)的藥物組合推薦
在該研究中,團隊從涵蓋各種藥物相關(guān)方面的數(shù)據(jù)集中收集大量數(shù)據(jù),并創(chuàng)新性地基于這些多模態(tài)數(shù)據(jù)開展超大規(guī)模預(yù)訓(xùn)練,生成藥物、蛋白質(zhì)和疾病的信息表征和特征,更進一步的,基于細胞內(nèi)的蛋白-基因之間的調(diào)控關(guān)系網(wǎng)絡(luò)構(gòu)建出深度圖神經(jīng)網(wǎng)絡(luò)模型,兼具可解釋性和模型預(yù)測能力。
文章表明,該模型在一系列藥物協(xié)同作用預(yù)測的基準(zhǔn)數(shù)據(jù)集上均實現(xiàn)了最佳的預(yù)測效果,在來自阿斯利康的藥物組合數(shù)據(jù)集驗證顯示,這一新方法比目前行業(yè)中的最佳模型提升10%以上,相較經(jīng)典機器學(xué)習(xí)方法提升30%以上。
更重要的是,對于訓(xùn)練數(shù)據(jù)中未見過的藥物及其組合的預(yù)測,新的模型也表現(xiàn)優(yōu)異。
研究團隊開發(fā)了兩個覆蓋39個獨立藥物和10個獨立細胞系的數(shù)據(jù)集,以測試這些方法在訓(xùn)練數(shù)據(jù)中沒有見過的藥物和細胞系上的表現(xiàn)。結(jié)果表明,新方法在這方面保持了很好的性能,各項指標(biāo)均達到80%以上,而其他方法如DeepDDS的表現(xiàn)均在70%以下。與此前行業(yè)最佳的模型相比,新模型的AU ROC超過了近15%。
團隊認為,本次提出的新方法和框架,既有助于在濕實驗中發(fā)現(xiàn)新型藥物,也將推動建立更為精確的組合藥物指南。
與單一藥物治療相比,聯(lián)合用藥治療具有諸多已被廣泛證實的好處:不但可以提高療效,減少副作用和宿主毒性,甚至可以克服耐藥性。在單一藥物難以奏效的情況下,聯(lián)合用藥治療越來越多地用于包括HIV、病毒感染和癌癥等復(fù)雜的疾病中。
當(dāng)然,藥物組合能夠發(fā)揮治療價值的一個大前提,是準(zhǔn)確地找到了合適的藥物組合。
傳統(tǒng)尋找藥物組合的方法,往往基于臨床試驗的不斷試錯,不僅耗時長、成本高,也無法排除對患者造成傷害的風(fēng)險。此外,受限于既有資源和海量的藥物組合搜索空間,也難以大規(guī)模地對所有藥物組合進行臨床驗證實驗。
近年來,隨著實驗技術(shù)的發(fā)展,高通量藥物篩選(HTS)讓探索大型藥物組合空間成為現(xiàn)實,與藥物組合協(xié)同作用相關(guān)的數(shù)據(jù)量也大幅增加。這類公共數(shù)據(jù)集的出現(xiàn)和完善,推動了特定組織的藥物研究,并為計算方法的完善提供了高質(zhì)量的訓(xùn)練數(shù)據(jù),使評估預(yù)測藥物組合的計算方法成為可能,尤其是基于深度學(xué)習(xí)的AI方法。
而現(xiàn)有模型及其所使用的數(shù)據(jù)集依然有較大局限性,包括預(yù)測目標(biāo)通常停留在一個特定的細胞系或組織,或者通常是基于單一的數(shù)據(jù)庫,距離普適性、無偏見、可大規(guī)模推廣的藥物協(xié)同作用預(yù)測模型仍有不少差距。
為了解決上述問題,在這項研究中,團隊提出一個端到端的深度學(xué)習(xí)框架,通過利用多模態(tài)數(shù)據(jù)、圖神經(jīng)網(wǎng)絡(luò)和大規(guī)模無監(jiān)督訓(xùn)練,提取和整合了藥物協(xié)同作用的重要特征,從而準(zhǔn)確地預(yù)測協(xié)同效應(yīng)。

圖:該研究提出的藥物組合預(yù)測框架
具體而言,模型將藥物的化學(xué)結(jié)構(gòu)圖和細胞系的基因/蛋白質(zhì)表達作為輸入,應(yīng)用預(yù)先訓(xùn)練好的藥物分子圖transformer和蛋白質(zhì)預(yù)訓(xùn)練語言模型,將藥物和蛋白轉(zhuǎn)換成嵌入向量,并使用知識嵌入學(xué)習(xí)算法,從醫(yī)學(xué)知識圖譜中獲得的融合疾病、藥物、蛋白關(guān)聯(lián)關(guān)系的基因表征嵌入向量。
接下來,通過將藥物-藥物相似性關(guān)系、藥物-靶點基因/蛋白對應(yīng)關(guān)系、以及蛋白和蛋白相互作用關(guān)系等構(gòu)建成具有更豐富信息的圖,利用圖神經(jīng)網(wǎng)絡(luò)將生成的嵌入向量作為節(jié)點表示,對藥物協(xié)同作用進行傳播和推演,在圖神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上,團隊建立了一個協(xié)同效應(yīng)預(yù)測器,通過多層感知器(MLP)來預(yù)測協(xié)同效應(yīng)。
實驗效果最優(yōu),且實現(xiàn)對全新藥物的預(yù)測
為了驗證新模型對于藥物組合的預(yù)測效果,研究團隊做了一系列的測試。
驗證的第一步,是在公開的DrugCom數(shù)據(jù)集上與最先進的方法進行比較,其中包括五種深度學(xué)習(xí)方法:DeepDDS、 TranSynergy、DeepSynergy、MR-GNN、 MatchMaker,以及兩種經(jīng)典機器學(xué)習(xí)方法:XGBoost、Adaboost。

如表2所示,新方法在所有重要指標(biāo)上都取得了當(dāng)前最好的結(jié)果。具體來說,在最重要的兩大指標(biāo)AU ROC和F1,新方法比第二優(yōu)的DeepDDS方法提升2%以上,比經(jīng)典機器學(xué)習(xí)方法更有超過20%的提升。

更進一步的,表3則總結(jié)了上述7種方法在行業(yè)公認的阿斯利康(AZ)數(shù)據(jù)集上遷移測試的表現(xiàn)。這一數(shù)據(jù)集基于專門評估藥物協(xié)同預(yù)測的賽事“AstraZeneca-Sanger Drug Combination Prediction DREAM Challenge',由阿斯利康、桑格研究所、Sage Bionetworks-DREAM Challenge組委會共同推出。
相比于其他的方法,新方法在指標(biāo)上大幅超越了其他的方法,體現(xiàn)了很強的推廣能力。
為了進一步驗證新方法的泛化能力,團隊開發(fā)了兩個覆蓋39個獨立的藥物和10個獨立的細胞系的數(shù)據(jù)集,以測試了這些方法在訓(xùn)練數(shù)據(jù)中沒有見過的藥物和細胞系上的表現(xiàn)。

如表4顯示,新方法在這方面保持了很好的性能,各項指標(biāo)均達到80%以上,而其他方法如DeepDDS和DeepSynergy出現(xiàn)了下降到70%以下的情況。
總體而言,該研究提出的新模型在實驗中充分驗證了其有效性和穩(wěn)健性,并始終且顯著優(yōu)于其他模型。
研究團隊認為,將這一模型擴展到更多任務(wù)上,會是一個很有前途的研究方向。在未來,將諸如三維分子結(jié)構(gòu)這樣的更多信息納入框架之中,該方法的性能還可以進一步提升。此外,研究團隊也將開發(fā)能夠進行更多的藥物、細胞系和疾病相關(guān)任務(wù)的方法,而不局限于藥物聯(lián)合效應(yīng)預(yù)測。
我們相信,研究團隊提出的新方法可以作為一個強大的工具,促進精確的藥物聯(lián)合治療醫(yī)學(xué)的發(fā)展,尤其是實現(xiàn)全新用藥組合的推薦。