2026年2月18日,上海交通大學(xué)人工智能學(xué)院與上海人工智能實驗室的謝偉迪,上海交通大學(xué)醫(yī)學(xué)院附屬新華醫(yī)院的孫錕、余永國,以及上海交通大學(xué)人工智能學(xué)院與上海人工智能實驗室的張婭,作為共同通訊作者,于國際頂級學(xué)術(shù)期刊《Nature》發(fā)表了題為《An agentic system for rare disease diagnosis withtraceablereasoning》研究論文。該研究成功開發(fā)出全球首個針對罕見病的AI智能體循證推理診斷系統(tǒng)——DeepRare,在罕見病診斷的精準度方面,首次超越了擁有十年以上臨床經(jīng)驗的專家。此項成果不僅推動了罕見病診斷技術(shù)的進步,為全球三億罕見病患者帶來了實質(zhì)性的希望,更是人工智能在醫(yī)療領(lǐng)域應(yīng)用的一個重要里程碑,彰顯了大語言模型驅(qū)動的AI智能體系統(tǒng)如何對當前臨床工作流程進行革新性重塑。
次日,即2月19日,謝偉迪、王延峰、孫錕、張婭再次作為共同通訊作者,在《Cancer Cell》期刊上發(fā)表了題為《Knowledge-enhanced pretraining for vision-language pathology foundation model on cancer diagnosis》的研究論文。
該研究創(chuàng)新性地開發(fā)了一種知識增強型視覺語言病理基礎(chǔ)模型——KEEP,專用于癌癥診斷領(lǐng)域。其性能表現(xiàn)卓越,超越了現(xiàn)有基礎(chǔ)模型,特別是在罕見癌癥亞型的診斷上展現(xiàn)出顯著優(yōu)勢。此項研究確立了知識增強型視覺語言建模作為推動計算病理學(xué)發(fā)展的強大方法范式。
在臨床癌癥診斷中,病理學(xué)診斷始終占據(jù)著金標準的地位。過去十年間,計算機視覺領(lǐng)域深度學(xué)習技術(shù)的飛速進步,極大地促進了計算病理學(xué)的發(fā)展,催生了一系列基于全監(jiān)督或弱監(jiān)督的專門模型。盡管這些方法前景廣闊,但它們往往受限于高昂的標注成本、稀疏的標注數(shù)據(jù),以及在不同數(shù)據(jù)集上的泛化能力有限。為解決這些難題,自監(jiān)督學(xué)習(SSL)策略應(yīng)運而生,作為一種前景廣闊的替代方案,它允許模型在大量未標注的病理圖像上進行預(yù)訓(xùn)練,進而作為一系列下游任務(wù)的通用特征提取器。然而,僅基于視覺的SSL模型仍需在多樣化的標注數(shù)據(jù)集上針對特定任務(wù)進行微調(diào),這限制了其在標注數(shù)據(jù)稀缺場景下的可擴展性,特別是在罕見癌癥亞型分類任務(wù)中。
近期,視覺語言模型(Vision-Language Model, VLM)的興起為計算病理學(xué)開辟了新路徑,為癌癥診斷提供了全新視角。通過聯(lián)合利用視覺和文本數(shù)據(jù),視覺語言模型將自由文本描述作為病理圖像表示學(xué)習的監(jiān)督信號,從而在數(shù)據(jù)稀疏的情況下提高診斷的準確性。這種方法能夠增強模型的泛化能力,并減少對大量標注數(shù)據(jù)集的依賴,進而解決了僅基于視覺的模型在區(qū)分復(fù)雜癌癥亞型方面的局限性。為創(chuàng)建視覺和語言的聯(lián)合嵌入空間,現(xiàn)有模型是在從內(nèi)部資源(如MI-Zero、CONCH和PRISM)或公共網(wǎng)站(如Twitter的PLIP和YouTube視頻的QuiltNet)收集的病理圖像-文本對上進行訓(xùn)練的,采用簡單的對比學(xué)習方法將圖像與其對應(yīng)的說明進行對齊。
盡管在各種下游任務(wù)中取得了顯著成效,但現(xiàn)有的病理學(xué)視覺語言模型,包括PLIP和QuiltNet,由于病理圖像文本數(shù)據(jù)集(如OpenPath和Quilt1M)規(guī)模相對較小,仍面臨重大挑戰(zhàn)。與通用計算機視覺中使用的龐大數(shù)據(jù)集相比,這些專門針對病理學(xué)的資源規(guī)模要小得多,且往往來源于非專業(yè)網(wǎng)站,導(dǎo)致數(shù)據(jù)噪聲大、質(zhì)量有限。例如,這些圖像所附帶的注釋往往簡短、無結(jié)構(gòu)且缺乏全面的醫(yī)學(xué)知識。這些缺陷阻礙了模型準確識別和區(qū)分各種疾病表現(xiàn)及其相應(yīng)病理特征的能力。
零樣本癌癥診斷作為病理學(xué)視覺語言基礎(chǔ)模型的關(guān)鍵下游應(yīng)用,特別適用于診斷罕見腫瘤且僅有少量標注病例的場景,F(xiàn)代基礎(chǔ)模型通常以整個切片圖像(WSI)的小網(wǎng)格塊為輸入,在僅視覺模型中整合嵌入特征,在視覺語言模型中整合預(yù)測標簽,以得出最終的診斷決策。盡管視覺語言模型通過明確識別癌變網(wǎng)格塊提供了更具解釋性的方法,但其在診斷罕見疾病方面的表現(xiàn)仍有限。
視覺語言基礎(chǔ)模型在計算病理學(xué)領(lǐng)域展現(xiàn)出巨大潛力,但它們主要依賴數(shù)據(jù)驅(qū)動,缺乏對醫(yī)學(xué)知識的明確整合。
鑒于此,該研究推出了一個基礎(chǔ)模型——KEEP(KnowledgE-Enhanced Pathology),它系統(tǒng)地將疾病知識融入到癌癥診斷的預(yù)訓(xùn)練過程中。
KEEP利用一個包含11454種疾病和139143個屬性的全面疾病知識圖譜,將數(shù)百萬個病理圖像文本對重新組織成143000個語義結(jié)構(gòu)化的組,這些組與疾病本體論層次結(jié)構(gòu)相一致。這種知識增強型預(yù)訓(xùn)練使得視覺和文本表示在層次語義空間中對齊,從而能夠更深入地理解疾病關(guān)系和形態(tài)學(xué)模式。在18個公共基準(超過14000張全切片圖像)和4個機構(gòu)的罕見癌癥數(shù)據(jù)集(926例)上,KEEP均表現(xiàn)出優(yōu)于現(xiàn)有基礎(chǔ)模型的性能,特別是在罕見癌癥亞型上展現(xiàn)出顯著優(yōu)勢。這些結(jié)果確立了知識增強型視覺語言建模作為推動計算病理學(xué)發(fā)展的強大方法范式。

該研究的亮點包括: