InDraw 7.2 pKa預(yù)測:比Marvin更準(zhǔn),準(zhǔn)確度提升50%
瀏覽次數(shù):73 發(fā)布日期:2026-4-14
來源:本站 僅供參考,謝絕轉(zhuǎn)載,否則責(zé)任自負(fù)
據(jù)統(tǒng)計(jì),超過70%的上市藥物分子含有可離子化的官能團(tuán)。pKa直接影響分子的溶解度、脂水分配系數(shù)、跨膜通透性(Permeability)以及與靶點(diǎn)蛋白的結(jié)合模式,是藥物研發(fā)中的“靈魂參數(shù)”。
然而,精準(zhǔn)預(yù)測pKa始終是計(jì)算化學(xué)領(lǐng)域的一大挑戰(zhàn),傳統(tǒng)的經(jīng)驗(yàn)公式(如 QSPR 模型)面對復(fù)雜、多氮雜環(huán)或高度官能團(tuán)化的先導(dǎo)化合物時(shí),誤差往往超過 1-2 個(gè)數(shù)量級。量子化學(xué)方法(如DFT)則耗時(shí)數(shù)小時(shí)。如果 pKa 預(yù)測不準(zhǔn),將導(dǎo)致一系列連鎖反應(yīng):溶解度誤判、ADMET瓶頸、分子對接失效......
為了解決這一問題,InDraw 7.2在技術(shù)上深度集成頂刊《JACS》的最新科研成果——《Bridging Machine Learning and Thermodynamics for Accurate pKa Prediction》。實(shí)現(xiàn)了從“經(jīng)驗(yàn)推斷”到“熱力學(xué)感知”的技術(shù)飛躍,下面我們用數(shù)據(jù)說話,看看它到底強(qiáng)在哪?
一、 精度驗(yàn)證:超越 Marvin等行業(yè)標(biāo)桿,盲測平均絕對誤差(MAE )僅 0.55
在科學(xué)界,數(shù)據(jù)是檢驗(yàn)真理的唯一標(biāo)準(zhǔn)。新一代預(yù)測技術(shù)在多個(gè)國際權(quán)威數(shù)據(jù)集上進(jìn)行了橫向?qū)Ρ,結(jié)果令人振奮。
|
一圖看懂 InDraw pKa 與 Marvin 等方法在多個(gè)數(shù)據(jù)集上的平均絕對誤差(MAE)對比
|
|
測試數(shù)據(jù)集
|
測試集規(guī)模
|
InDraw 7.2 MAE
|
行業(yè)標(biāo)桿A (MAE)
|
物理計(jì)算(DFT) 誤差
|
|
Novartis Internal Set
|
經(jīng)典藥物分子
|
0.81
|
0.99
|
~0.5-0.7
|
|
SAMPL6 Blind Challenge
|
藥物小分子
|
0.55
|
0.78
|
0.5-1.0
|
|
SAMPL7 Blind Challenge
|
復(fù)雜雜環(huán)分子
|
0.57
|
1.12
|
1.0+
|
注:MAE < 0.7** 屬于高精度模型,**MAE 0.7-1.0** 屬于合格水平,**MAE > 1.0 則精度不足
藥物分子集(Novartis Set)測試:在針對真實(shí)藥物分子的測試中,預(yù)測模型的平均絕對誤差(MAE)降低至 0.81 左右。作為對比,傳統(tǒng)的行業(yè)標(biāo)桿軟件(如Epik或Marvin)的誤差通常在 1.0 附近。這意味著預(yù)測結(jié)果更接近真實(shí)的實(shí)驗(yàn)反饋。
盲測挑戰(zhàn)賽(SAMPL系列):在更具挑戰(zhàn)性的 SAMPL6 和 SAMPL7 全球盲測數(shù)據(jù)集中,該技術(shù)展現(xiàn)了極強(qiáng)的泛化能力。在 SAMPL6 集中,MAE 僅為 0.55,在復(fù)雜雜環(huán)分子的盲測中,相較于傳統(tǒng)的行業(yè)標(biāo)桿軟件,準(zhǔn)確度提升了50%!這一數(shù)據(jù)已經(jīng)觸及了目前計(jì)算預(yù)測的精度天花板,表現(xiàn)甚至優(yōu)于許多復(fù)雜的物理化學(xué)計(jì)算流程。
計(jì)算速度的降維打擊:最令科研人員興奮的是,在獲得接近量子化學(xué)(DFT)計(jì)算精度的前提下,計(jì)算耗時(shí)縮短了數(shù)萬倍。原本需要數(shù)小時(shí)的計(jì)算任務(wù),現(xiàn)在只需 30 毫秒即可完成,真正實(shí)現(xiàn)了“即繪即顯”。
二、為什么精準(zhǔn)預(yù)測 pKa 如此困難?
在藥物設(shè)計(jì)中,藥化專家經(jīng)常會(huì)遇到“預(yù)測值與實(shí)驗(yàn)值對不上”的困局,主要源于復(fù)雜分子內(nèi)部微妙的化學(xué)環(huán)境:
誘導(dǎo)效應(yīng)與共軛效應(yīng)的疊加: 當(dāng)分子中存在多個(gè)雜原子時(shí),電子云的分布變得極度復(fù)雜,簡單的加和法無法捕捉真實(shí)的解離傾向。
空間位阻與內(nèi)氫鍵: 分子的三維構(gòu)象會(huì)顯著影響質(zhì)子的解離難度。某些官能團(tuán)可能被“屏蔽”在分子內(nèi)部,導(dǎo)致其實(shí)際pKa遠(yuǎn)偏離理論值。
互變異構(gòu)的干擾: 一個(gè)分子在溶液中可能存在多種異構(gòu)體,每種異構(gòu)體都有其獨(dú)特的電離常數(shù),如何計(jì)算其宏觀觀測值是業(yè)內(nèi)的長期難題。
三、 技術(shù)解法:給AI裝上“物理大腦”
InDraw采用Uni-pKa預(yù)測技術(shù)的跨越式升級,源于其獨(dú)特的算法架構(gòu)——將熱力學(xué)循環(huán)約束與3D圖神經(jīng)網(wǎng)絡(luò)(GNN)深度融合。

|
一圖看懂 InDraw pKa 與 Marvin 等方法在多個(gè)數(shù)據(jù)集上的平均絕對誤差(MAE)對比
|
|
測試數(shù)據(jù)集
|
測試集規(guī)模
|
InDraw 7.2 MAE
|
行業(yè)標(biāo)桿A (MAE)
|
物理計(jì)算(DFT) 誤差
|
|
Novartis Internal Set
|
經(jīng)典藥物分子
|
0.81
|
0.99
|
~0.5-0.7
|
|
SAMPL6 Blind Challenge
|
藥物小分子
|
0.55
|
0.78
|
0.5-1.0
|
|
SAMPL7 Blind Challenge
|
復(fù)雜雜環(huán)分子
|
0.57
|
1.12
|
1.0+
|
注:MAE < 0.7** 屬于高精度模型,**MAE 0.7-1.0** 屬于合格水平,**MAE > 1.0 則精度不足
“Uni-pKa 模型(如上圖所示),通過 AI 學(xué)習(xí)分子的三維空間特征并預(yù)測各微觀狀態(tài)的自由能(Section B)。隨后,利用嚴(yán)謹(jǐn)?shù)臒崃W(xué)公式(Section C)將能量信息轉(zhuǎn)化為精準(zhǔn)的 pKa 數(shù)值。這種‘物理規(guī)律約束 AI’的設(shè)計(jì),不僅極大地提升了預(yù)測精度,更確保了復(fù)雜分子在多位點(diǎn)解離時(shí)的邏輯嚴(yán)密性。”
遵循物理法則的“系綜”建模不同于市面上許多將pKa視為單純“分類”或“回歸”問題的AI模型,InDraw 7.2 采用了Uni-pKa的“質(zhì)子化系綜(Protonation Ensemble)”框架。該技術(shù)通過模擬分子在特定環(huán)境下的所有可能微觀電離狀態(tài),并引入吉布斯自由能平衡約束,確保了預(yù)測結(jié)果在邏輯上嚴(yán)絲合縫。這意味著,無論分子結(jié)構(gòu)多么復(fù)雜,其微觀電離狀態(tài)與宏觀觀測到的pKa值在物理學(xué)上始終是自洽的,告別了AI預(yù)測常見的“黑盒錯(cuò)誤”。
空間感知的3D特征提取新技術(shù)不再局限于分子的2D連通性,而是通過預(yù)訓(xùn)練的3D分子模型,精準(zhǔn)感知原子在空間中的相互距離與相互作用。無論是仲胺、叔胺的堿性漂移,還是多氮雜環(huán)的電荷分布,都能以毫秒級的速度給出極具信服力的解釋。
四、體驗(yàn)升級:看得見的pKa,點(diǎn)得準(zhǔn)的位點(diǎn)
InDraw 7.2 客戶端將前沿技術(shù)轉(zhuǎn)化為科研人員觸手可及的交互功能:
交互式位點(diǎn)標(biāo)注: 不僅給出數(shù)值,還能在分子結(jié)構(gòu)上直觀標(biāo)注酸性/堿性位點(diǎn),并根據(jù)強(qiáng)度進(jìn)行顏色區(qū)分。這種直觀的視覺反饋,能極大地輔助化學(xué)家快速進(jìn)行取代基修飾。
微觀粒子分布曲線:一鍵生成分子在 pH 0-14 范圍內(nèi)的電荷狀態(tài)分布圖。這對于制藥工藝設(shè)計(jì)、制劑處方前研究(Pre-formulation)具有至關(guān)重要的指導(dǎo)價(jià)值。
五、從“盲猜”到“秒答”:改變化學(xué)家的工具箱
InDraw 7.2 的發(fā)布,不僅是繪圖工具的更新,更是 InDraw 邁向“AI+化學(xué)智能工作站”的關(guān)鍵一步?蒲腥藛T不再需要反復(fù)猜測分子的理化性質(zhì),不再需要為了一個(gè)參數(shù)查閱無數(shù)文獻(xiàn),也不再需要等待漫長的量子化學(xué)計(jì)算排隊(duì)。
下載并打開 InDraw 7.2,在指尖滑動(dòng)的瞬間,強(qiáng)大的預(yù)測引擎便會(huì)為您揭示分子內(nèi)部的電離奧秘。