今日,百川智能与清华大学研究团队联合发布了新一代医疗增强大模型Baichuan-M4,该模型在多个医疗评测榜单上取得世界第一的成绩,超越了GPT-5.5、ClaudeOpus4.7、DeepSeek-V4-Pro等竞争对手。Baichuan-M4在HealthBench及其Hard、Professional三个榜单上的表现尤为突出,幻觉率低至3.3%,在OpenAI提出的医疗评测HealthBench上综合得分68.6,领先第二名GPT-5.5超过10分。在Hard子集上,M4的领先优势更是达到了15.9分。
Baichuan-M4通过主动追问症状的性质与诱因,优先识别和排查危急重症,改变了以往被动等待用户提供完整信息的模式。此外,M4推出了「全病程记忆」功能,能够打通历史病历、多轮问诊、化验趋势与用药反馈,使得模型在多次对话中始终掌握患者的全面信息,而不必每次都从零开始。在长上下文临床记忆评测中,M4取得了86.9分,为同类最高,较上一代M3提升了21.1分。
百川智能还首创了“证据锚定”技术,要求模型生成的每一句医学结论都精确对应到原始论文或指南中的具体段落。依托六源循证范式,M4只在权威医学来源中检索,不从开放网络抓取资料。在百川构建的循证医学评测Baichuan-EBM上,M4的循证引用精度达到了90.0,远超GPT-5.5的54.7和OpenEvidence的55.9。

