AI for Chemistry, AI for Drug 領(lǐng)域,各大公司非常關(guān)注,英偉達(dá)研究團(tuán)隊(duì)推出的 ReaSyn 分子合成推理框架,能基于文獻(xiàn)中的分子合成數(shù)據(jù)優(yōu)化路徑設(shè)計(jì);谷歌 DeepMind 推出的藥物研發(fā)專用大模型 TxGemma,可完成生物化學(xué)文獻(xiàn)篩選、分子結(jié)構(gòu)和作用機(jī)制提取、藥物特性預(yù)測(cè)等核心任務(wù)。
2025 年,清華大學(xué)研究團(tuán)隊(duì)發(fā)表重磅研究《ReactionSeek: 基于大語(yǔ)言模型的有機(jī)合成文獻(xiàn)數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)》。該研究成功提取了《Organic Syntheses》雜志自 1921 年以來(lái)的全部文獻(xiàn)數(shù)據(jù),自動(dòng)構(gòu)建有機(jī)合成知識(shí)庫(kù),而支撐這一成果的核心化學(xué)結(jié)構(gòu)式圖像識(shí)別模塊,采用了某企業(yè)信息的 InDraw 結(jié)構(gòu)式編輯器 AI 圖像識(shí)別功能。
AI for Chemistry, AI for Drug 的核心,在于 AI 能理解化學(xué)、生物。在化學(xué)領(lǐng)域,AI 能理解化學(xué)了嗎?只有 AI 能理解化學(xué),才能真正實(shí)現(xiàn) AI 設(shè)計(jì)藥物分子結(jié)構(gòu)。而 AI 理解化學(xué)的第一步,就是 AI 結(jié)構(gòu)式圖像識(shí)別,把化學(xué)結(jié)構(gòu)式圖片,識(shí)別成計(jì)算機(jī)可處理的化學(xué)數(shù)據(jù)(原理如下圖)。

差距幾何?國(guó)際頂尖化學(xué)結(jié)構(gòu)圖像識(shí)別模型實(shí)力拆解
化學(xué)結(jié)構(gòu)圖像識(shí)別是文獻(xiàn)數(shù)字化的關(guān)鍵環(huán)節(jié),直接影響科研效率。當(dāng)前國(guó)際主流頂尖模型以 MolScribe 與 MolNextr 為代表,二者憑借創(chuàng)新架構(gòu)設(shè)計(jì)與化學(xué)知識(shí)融合策略,在該領(lǐng)域展現(xiàn)出優(yōu)異性能,相關(guān)技術(shù)成果已發(fā)表于權(quán)威學(xué)術(shù)期刊,其核心優(yōu)勢(shì)與能力均有充分的實(shí)驗(yàn)數(shù)據(jù)支撐,MolScribe 與 MolNextr 的識(shí)別能力如下圖所示。


來(lái)自中國(guó)的 InDraw AI 結(jié)構(gòu)式圖像識(shí)別,是否和這些國(guó)際頂尖化學(xué)結(jié)構(gòu)圖像識(shí)別模型有差距?要客觀評(píng)判 InDraw 與 MolScribe、MolNextr 的識(shí)別能力差異,以下借助權(quán)威公開(kāi)測(cè)試數(shù)據(jù)開(kāi)展量化對(duì)比,通過(guò)統(tǒng)一的測(cè)試標(biāo)準(zhǔn)直觀呈現(xiàn)三者的性能表現(xiàn)。
InDraw 的 AI 結(jié)構(gòu)式圖像識(shí)別實(shí)測(cè)數(shù)據(jù)
在 CLEF、UOB、JPO、USPTO 四大權(quán)威公開(kāi)測(cè)試集中,InDraw 的識(shí)別實(shí)力直接 “斷層領(lǐng)先” 同類工具:

UOB 測(cè)試集拿下 99.73% 的超高準(zhǔn)確率,比 MolNextr 高出 11.23 個(gè)百分點(diǎn);CLEF 測(cè)試集 98.62% 的成績(jī),甩開(kāi)第二名 MolNextr 足足 8.22 個(gè)百分點(diǎn);JPO 測(cè)試集里,InDraw90.22% 的表現(xiàn),比 MolNextr 領(lǐng)先 8.12 個(gè)百分點(diǎn);哪怕是競(jìng)爭(zhēng)最激烈的 USPTO 測(cè)試集,InDraw 也以 94.67% 的準(zhǔn)確率,領(lǐng)先 MolNextr0.87 個(gè)百分點(diǎn),展現(xiàn)了強(qiáng)勁的識(shí)別能力!
實(shí)際案例
Round 1:模糊圖識(shí)別對(duì)比

在高度模糊化學(xué)結(jié)構(gòu)圖像的識(shí)別任務(wù)中,三款模型均展現(xiàn)出較高的識(shí)別精度,其中 MolScribe 僅存在輕微識(shí)別誤差。從“識(shí)別即可用”的實(shí)際應(yīng)用需求來(lái)看,僅 InDraw 可直接滿足該標(biāo)準(zhǔn);MolNextr 雖能實(shí)現(xiàn)結(jié)構(gòu)的完整正確識(shí)別,但分子結(jié)構(gòu)的還原度欠佳,后續(xù)需耗費(fèi)與重新繪制相近的時(shí)間用于調(diào)整結(jié)構(gòu)位置及角度,難以直接投入實(shí)際應(yīng)用。
Round 2:超大結(jié)構(gòu)識(shí)別對(duì)比

對(duì)于復(fù)雜化學(xué)結(jié)構(gòu)的識(shí)別任務(wù),三款模型的基礎(chǔ)識(shí)別精度均能滿足需求,其性能差異主要體現(xiàn)在結(jié)構(gòu)還原度層面。其中,MolScribe 對(duì)苯環(huán)結(jié)構(gòu)的顯示形式局限于凱庫(kù)勒式,且在結(jié)構(gòu)轉(zhuǎn)換過(guò)程中存在輕微苯環(huán)扭曲現(xiàn)象,該差異在放大觀察時(shí)更為顯著;MolNextr 的識(shí)別結(jié)果優(yōu)于 MolScribe,可支持苯環(huán)的鮑林式顯示,但對(duì)特殊化學(xué)鍵的還原效果欠佳;InDraw 的結(jié)構(gòu)還原度表現(xiàn)優(yōu)異,基本可實(shí)現(xiàn) “識(shí)別即用” 的需求,此外,MolNextr 的識(shí)別結(jié)果整體亦具備較高質(zhì)量。
Round 3:2.5D 結(jié)構(gòu)識(shí)別對(duì)比

2.5D 結(jié)構(gòu)識(shí)別長(zhǎng)期以來(lái)是化學(xué)結(jié)構(gòu)圖像識(shí)別領(lǐng)域的技術(shù)難點(diǎn)。測(cè)試結(jié)果顯示,MolScribe 在該類結(jié)構(gòu)識(shí)別任務(wù)中具備不錯(cuò)的識(shí)別精度,但結(jié)構(gòu)還原度表現(xiàn)欠佳,相對(duì)位置發(fā)生了變化;MolNextr 的 2.5D 結(jié)構(gòu)識(shí)別結(jié)果實(shí)用性較低,基本無(wú)法直接投入應(yīng)用;InDraw 能正確識(shí)別結(jié)構(gòu)式并保持相對(duì)位置,其輸出的識(shí)別結(jié)果可顯著降低人工繪制工作量。
小結(jié)
實(shí)際應(yīng)用場(chǎng)景中,InDraw 的化學(xué)結(jié)構(gòu)識(shí)別功能表現(xiàn)突出:針對(duì)模糊圖像、復(fù)雜結(jié)構(gòu)及 2.5D 結(jié)構(gòu)等典型挑戰(zhàn)性場(chǎng)景,均能精準(zhǔn)捕獲核心結(jié)構(gòu)信息,識(shí)別結(jié)果可較好還原分子真實(shí)結(jié)構(gòu),基本無(wú)需人工二次修正。相較之下,同類競(jìng)品識(shí)別模型的輸出結(jié)果多需復(fù)雜人工校準(zhǔn),其耗時(shí)與重新繪制分子結(jié)構(gòu)或無(wú)顯著差異;而 InDraw 的識(shí)別結(jié)果可直接支撐后續(xù)科研應(yīng)用,為您的高效化學(xué)探索之旅持續(xù)提供可靠支撐。