通用型尖端大語言模型(Frontier LLMs)與醫療專用 AI 工具(Clinical AI tools)在醫學基準測試上的表現對比
通用型尖端大語言模型(Frontier LLMs)與醫療專用 AI 工具(Clinical AI tools)在醫學基準測試上的表現對比
Vishwanath, K., Alyakin, A., Ghosh, M., Hage, A., Neifert, S. N., Orillac, C., ... & Oermann, E. K. (2026). General-purpose large language models outperform specialized clinical AI tools on medical benchmarks. Nature Medicine, 1-5.
這篇發表於《Nature Medicine》的研究,主要探討了通用型尖端大語言模型(Frontier LLMs)與 醫療專用 AI 工具(Clinical AI tools)在醫學基準測試上的表現對比 。
以下為該研究的核心要點整理:
核心研究發現
通用型模型全面勝出:無論是在基礎醫學知識、臨床醫師對齊,還是真實臨床問題的測試中,通用型的尖端 LLM(如 Gemini、GPT)表現均優於專門為醫療設計的 AI 工具(如 OpenEvidence、UpToDate Expert AI)。
醫療 AI 與搜尋 AI 相當:臨床專用 AI 工具在真實臨床查詢(RCQ)中的表現,僅與常規的 Google 搜尋 AI 摘要(Google Search AI Overview)相當 。
主要結果

圖片出自 https://www.nature.com/articles/s41591-026-04431-5/figures/2
圖片說明
-
a. MedQA 準確率:測試模型醫學知識的基礎表現(每款模型測試 500 題)。
-
b. HealthBench 分數:評估模型與臨床醫生決策的對齊程度(每款模型測試 500 題)。
-
c. RCQ 臨床醫生綜合平均評分:採用 1 至 4 分制 。由 12 名臨床醫生中的 3 名對 100 題真實臨床查詢的生成結果進行獨立評分,排除 32 項被標記為「拒答」的配對後,各模型保留的有效樣本數分別為:Gemini (98 筆)、GPT-5.2 (97 筆)、Claude (99 筆)、OpenEvidence (99 筆)、UpToDate (81 筆) 及 Google AI (94 筆) 。
-
d. RCQ 各評估維度拆解得分:將真實臨床查詢(RCQ)細分維度進行表現評估,樣本數與 c 相同 。
-
e. 拒答率:統計各模型拒絕回答問題的比例(每款模型測試 100 題)。
-
f & g. 有害回答與幻覺比例:由 3 名評審中的多數(2 名或以上)投票判定是否包含有害內容 (f) 或幻覺 (g),樣本數與 c 相同 。
評估模型與測試階段
研究團隊共挑選了六款模型,並分為三大類別進行三階段的嚴格測試 :
1. 評估模型分類
通用型尖端 LLM:OpenAI GPT-5.2、Google Gemini 3.1 Pro、Anthropic Claude Opus 4.6 。
商業臨床專用 AI:OpenEvidence、UpToDate Expert AI 。
搜尋嵌入式 AI(對照組):Google Search AI Overview 。
2. 三階段評估架構
第一階段(MedQA):500 題美國執業醫師資格考試(USMLE)風格的選擇題,用以測試醫學基礎知識 。
第二階段(HealthBench):500 項自由文本評估,由 LLM 擔任裁判團,測量模型與臨床專家的對齊程度 。
第三階段(RCQ, 真實臨床查詢):100 題源自線上 live 臨床環境中醫生提出的真實去識別化臨床問題 。此階段由 12 名美國臨床醫生進行隨機、雙盲審查,產生 1,800 份人工評註 。
數據表現與指標
各指標得分
MedQA 準確率:Gemini 3.1 Pro 居冠(97.4%),其次為 GPT-5.2(94.2%)和 Claude Opus 4.6(90.2%);而醫療專用工具 OpenEvidence(89.6%)與 UpToDate(88.4%)分數較低 。
HealthBench 分數:GPT-5.2 表現最好(88.0 分),Gemini(79.3 分)與 Claude(77.0 分)次之 ,兩款臨床醫療專用 AI 工具得分皆低於 63 分 。
真實臨床查詢(RCQ)綜合評分(1–4 分制) :
第一梯隊(通用尖端模型):Gemini (3.62)、GPT (3.54)、Claude (3.52) 。
第二梯隊(專用工具與搜尋 AI):Google AI Overview (3.27)、OpenEvidence (3.24)、UpToDate AI (3.17) 。
安全性與拒答率
拒答率(Refusal Rate):UpToDate Expert AI 的拒答率高達 19%,顯著高於其他通用模型的 1%–3% 。
安全性結果:在臨床醫生評判的「有害回答」與「幻覺(虛假訊息)」比例上,所有模型並未表現出統計學上的顯著差異,均維持在極低的水平 。
結論與臨床啟示
規模與推理能力的優勢:研究指出,尖端通用模型之所以勝出,可能得益於更大的訓練語料庫、更快的技術迭代週期,以及更強的跨領域邏輯推理能力 。相較之下,醫療 AI 常用的 RAG(檢索增強生成)技術,若檢索到不相關資料或整合不佳,反而可能降低品質 。
醫療 AI 的常見弱點:醫療專用工具(如 OpenEvidence)在「條理清晰度」上得分最低,顯示其弱點在於臨床溝通與文本組織,而非醫學知識匱乏 。
對醫療體系的建議:這項獨立研究強調了在 AI 工具進入日常臨床前,進行「實地、盲審、獨立評估」的重要性 。未來醫院的發展方向,可能是運用機構內部數據開發本土化大模型(Hospital-specific LLMs),並搭配通用尖端模型處理低敏感任務 。