AI for Chemistry, AI for Drug 領域,各大公司非常關注,英偉達研究團隊推出的 ReaSyn 分子合成推理框架,能基于文獻中的分子合成數(shù)據(jù)優(yōu)化路徑設計;谷歌 DeepMind 推出的藥物研發(fā)專用大模型 TxGemma,可完成生物化學文獻篩選、分子結構和作用機制提取、藥物特性預測等核心任務。
2025 年,清華大學研究團隊發(fā)表重磅研究《ReactionSeek: 基于大語言模型的有機合成文獻數(shù)據(jù)挖掘與知識發(fā)現(xiàn)》。該研究成功提取了《Organic Syntheses》雜志自 1921 年以來的全部文獻數(shù)據(jù),自動構建有機合成知識庫,而支撐這一成果的核心化學結構式圖像識別模塊,采用了某企業(yè)信息的 InDraw 結構式編輯器 AI 圖像識別功能。
AI for Chemistry, AI for Drug 的核心,在于 AI 能理解化學、生物。在化學領域,AI 能理解化學了嗎?只有 AI 能理解化學,才能真正實現(xiàn) AI 設計藥物分子結構。而 AI 理解化學的第一步,就是 AI 結構式圖像識別,把化學結構式圖片,識別成計算機可處理的化學數(shù)據(jù)(原理如下圖)。

差距幾何?國際頂尖化學結構圖像識別模型實力拆解
化學結構圖像識別是文獻數(shù)字化的關鍵環(huán)節(jié),直接影響科研效率。當前國際主流頂尖模型以 MolScribe 與 MolNextr 為代表,二者憑借創(chuàng)新架構設計與化學知識融合策略,在該領域展現(xiàn)出優(yōu)異性能,相關技術成果已發(fā)表于權威學術期刊,其核心優(yōu)勢與能力均有充分的實驗數(shù)據(jù)支撐,MolScribe 與 MolNextr 的識別能力如下圖所示。


來自中國的 InDraw AI 結構式圖像識別,是否和這些國際頂尖化學結構圖像識別模型有差距?要客觀評判 InDraw 與 MolScribe、MolNextr 的識別能力差異,以下借助權威公開測試數(shù)據(jù)開展量化對比,通過統(tǒng)一的測試標準直觀呈現(xiàn)三者的性能表現(xiàn)。
InDraw 的 AI 結構式圖像識別實測數(shù)據(jù)
在 CLEF、UOB、JPO、USPTO 四大權威公開測試集中,InDraw 的識別實力直接 “斷層領先” 同類工具:

UOB 測試集拿下 99.73% 的超高準確率,比 MolNextr 高出 11.23 個百分點;CLEF 測試集 98.62% 的成績,甩開第二名 MolNextr 足足 8.22 個百分點;JPO 測試集里,InDraw90.22% 的表現(xiàn),比 MolNextr 領先 8.12 個百分點;哪怕是競爭最激烈的 USPTO 測試集,InDraw 也以 94.67% 的準確率,領先 MolNextr0.87 個百分點,展現(xiàn)了強勁的識別能力!
實際案例
Round 1:模糊圖識別對比

在高度模糊化學結構圖像的識別任務中,三款模型均展現(xiàn)出較高的識別精度,其中 MolScribe 僅存在輕微識別誤差。從“識別即可用”的實際應用需求來看,僅 InDraw 可直接滿足該標準;MolNextr 雖能實現(xiàn)結構的完整正確識別,但分子結構的還原度欠佳,后續(xù)需耗費與重新繪制相近的時間用于調(diào)整結構位置及角度,難以直接投入實際應用。
Round 2:超大結構識別對比

對于復雜化學結構的識別任務,三款模型的基礎識別精度均能滿足需求,其性能差異主要體現(xiàn)在結構還原度層面。其中,MolScribe 對苯環(huán)結構的顯示形式局限于凱庫勒式,且在結構轉換過程中存在輕微苯環(huán)扭曲現(xiàn)象,該差異在放大觀察時更為顯著;MolNextr 的識別結果優(yōu)于 MolScribe,可支持苯環(huán)的鮑林式顯示,但對特殊化學鍵的還原效果欠佳;InDraw 的結構還原度表現(xiàn)優(yōu)異,基本可實現(xiàn) “識別即用” 的需求,此外,MolNextr 的識別結果整體亦具備較高質(zhì)量。
Round 3:2.5D 結構識別對比

2.5D 結構識別長期以來是化學結構圖像識別領域的技術難點。測試結果顯示,MolScribe 在該類結構識別任務中具備不錯的識別精度,但結構還原度表現(xiàn)欠佳,相對位置發(fā)生了變化;MolNextr 的 2.5D 結構識別結果實用性較低,基本無法直接投入應用;InDraw 能正確識別結構式并保持相對位置,其輸出的識別結果可顯著降低人工繪制工作量。
小結
實際應用場景中,InDraw 的化學結構識別功能表現(xiàn)突出:針對模糊圖像、復雜結構及 2.5D 結構等典型挑戰(zhàn)性場景,均能精準捕獲核心結構信息,識別結果可較好還原分子真實結構,基本無需人工二次修正。相較之下,同類競品識別模型的輸出結果多需復雜人工校準,其耗時與重新繪制分子結構或無顯著差異;而 InDraw 的識別結果可直接支撐后續(xù)科研應用,為您的高效化學探索之旅持續(xù)提供可靠支撐。