2025年初,清華大學(xué)研究團(tuán)隊(duì)在預(yù)印本平臺(tái)ChemRxiv上發(fā)表了一項(xiàng)名為《ReactionSeek: LLM-Powered Literature Data Mining and Knowledge Discovery in Organic Synthesis(ReactionSeek:大語言模型支持的有機(jī)合成文獻(xiàn)數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn),下文簡稱ReactionSeek)》的重磅研究。他們開發(fā)的這套文獻(xiàn)挖掘系統(tǒng),成功處理了《Organic Syntheses》雜志自1921年以來的全部文獻(xiàn),自動(dòng)構(gòu)建出可供AI學(xué)習(xí)的、有機(jī)合成知識(shí)庫,準(zhǔn)確率超過95%。
而這項(xiàng)研究的圖像識(shí)別模塊,使用的正是InDraw結(jié)構(gòu)式編輯器,它負(fù)責(zé)將文獻(xiàn)中的分子結(jié)構(gòu)圖像精準(zhǔn)轉(zhuǎn)換為機(jī)器可讀的SMILES表達(dá)式。
一、清華研究的“化學(xué)之眼”:InDraw如何助力AI讀懂百年文獻(xiàn)
在有機(jī)合成、藥物研發(fā)等領(lǐng)域,科研人員常面臨兩大痛點(diǎn):一是文獻(xiàn)里的分子結(jié)構(gòu)圖片難以編輯復(fù)用,二是海量文獻(xiàn)數(shù)據(jù)手動(dòng)提取耗時(shí)耗力!禦eactionSeek》研究直面本挑戰(zhàn):如何讓計(jì)算機(jī)“看懂”文獻(xiàn)中復(fù)雜的化學(xué)結(jié)構(gòu)圖像,從而高效利用?
清華團(tuán)隊(duì)選擇了InDraw的OCSR(光學(xué)化學(xué)結(jié)構(gòu)識(shí)別)功能,將文獻(xiàn)圖片中的分子結(jié)構(gòu)轉(zhuǎn)換為SMILES碼。結(jié)果顯示,InDraw在識(shí)別化合物標(biāo)識(shí)符及其在反應(yīng)中的角色方面準(zhǔn)確率極高,為后續(xù)的數(shù)據(jù)分析和知識(shí)發(fā)現(xiàn)奠定了堅(jiān)實(shí)基礎(chǔ)。
清華這項(xiàng)工作的重要意義在于:它首次系統(tǒng)性地將復(fù)雜多樣的百年級(jí)化學(xué)文獻(xiàn)轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù),為AI驅(qū)動(dòng)的化學(xué)發(fā)現(xiàn)打開了知識(shí)寶庫。而InDraw在其中承擔(dān)了關(guān)鍵的“化學(xué)視覺”功能,讓機(jī)器第一次真正“看懂”了化學(xué)結(jié)構(gòu)。
二、不只是“識(shí)別”:InDraw的硬核技術(shù)矩陣
作為鷹谷信息自主研發(fā)的專業(yè)級(jí)化學(xué)結(jié)構(gòu)式編輯器,InDraw的價(jià)值遠(yuǎn)不止于圖像識(shí)別。經(jīng)過12年的技術(shù)積累,它已構(gòu)建起完整的技術(shù)護(hù)城河:
1. 全球領(lǐng)先的IUPAC命名能力
·全球首家實(shí)現(xiàn)中文IUPAC命名
·全球第四家實(shí)現(xiàn)英文IUPAC命名
·經(jīng)1600萬化合物測試,準(zhǔn)確率高達(dá)99.55%
2. 精準(zhǔn)的AI圖像識(shí)別
在UO85740測試集上,識(shí)別準(zhǔn)確率達(dá)99.75%,能夠快速將圖片格式的復(fù)雜化學(xué)結(jié)構(gòu)轉(zhuǎn)換為可編輯結(jié)構(gòu)。
3. 全面的大分子編輯
獨(dú)有的HELM大分子編輯器,支持蛋白質(zhì)、DNA、RNA、多糖等復(fù)雜結(jié)構(gòu)的繪制與展示。
4. 無縫的國際兼容
實(shí)現(xiàn)與ChemDraw、Word、Excel的三向互通,支持主流期刊的繪圖樣式,已有數(shù)百篇使用InDraw繪制的論文在Nature、JMC等頂級(jí)期刊發(fā)表。
三、從結(jié)構(gòu)識(shí)別到知識(shí)挖掘:InPaper智能進(jìn)階
基于同樣的技術(shù)底蘊(yùn),還推出了InPaper文獻(xiàn)結(jié)構(gòu)化工具,將化學(xué)文獻(xiàn)的智能解析推向新高度:
·精準(zhǔn)提取:自動(dòng)識(shí)別文獻(xiàn)中的化學(xué)結(jié)構(gòu)、反應(yīng)式和生物活性數(shù)據(jù)
·智能轉(zhuǎn)換:將文本中的化學(xué)名稱自動(dòng)轉(zhuǎn)為可編輯的結(jié)構(gòu)式
·構(gòu)效分析:自動(dòng)構(gòu)建結(jié)構(gòu)-活性關(guān)系表(SAR),為藥物研發(fā)等提供數(shù)據(jù)支撐
·批量處理:支持大量文獻(xiàn)的快速解析、在線修正另存、Excel導(dǎo)出
InPaper的出現(xiàn),讓科學(xué)家從繁瑣的數(shù)據(jù)提取中解放出來,將更多精力投入到創(chuàng)新發(fā)現(xiàn)中。
四、國產(chǎn)科研軟件的破局之路
從被國際巨頭壟斷,到被清華大學(xué)頂級(jí)研究選用,InDraw的成長軌跡映射出國產(chǎn)科研軟件的崛起之路。
目前,InDraw已擁有超過100萬用戶,覆蓋國內(nèi)外各大高校、科研院所和企業(yè)單位,被華為、艾力斯、中海油、國家知識(shí)產(chǎn)權(quán)局等知名機(jī)構(gòu)采用。2025年底即將推出的7.0版本,在保持大部分功能免費(fèi)的同時(shí),將為企業(yè)用戶提供更強(qiáng)大的專業(yè)功能。
清華文獻(xiàn)原文:
1.Li J, Li M, Yang Q, Luo S. ReactionSeek: LLM-Powered Literature Data Mining and Knowledge Discovery in Organic Synthesis. ChemRxiv. 2025; doi:10.26434/chemrxiv-2025-t110q
2.https://chemrxiv.org/engage/chemrxiv/article-details/689328e223be8e43d6f494d3
鷹谷團(tuán)隊(duì)堅(jiān)信:科研工具不應(yīng)成為制約創(chuàng)新的瓶頸;通過我們持續(xù)的技術(shù)攻關(guān),我國科學(xué)家必然“用得上、用得起、用得好”。
【體驗(yàn)提示】歡迎訪問鷹谷官網(wǎng)下載或在線使用InDraw,親身體驗(yàn)這款被清華大學(xué)選中的國產(chǎn)化學(xué)編輯器的強(qiáng)大功能。
InDraw軟件官方下載地址:
https://www.integle.com/static/indraw