Med-Gemini是基于2023年Gemini模型的医疗领域AI技术,这些模型以其语言处理、多模态理解和长文本推理能力而闻名。Med-Gemini显著增强了这些能力,特别针对医疗保健应用。Med-Gemini在14个医疗基准测试中的表现证明了其优越性,其中在10个基准测试中达到了新的最先进性能,通常显著超越了GPT-4模型。特别是在MedQA(USMLE)基准测试中,Med-Gemini实现了91.1%的准确率,比之前的模型提高了4.6%。
Med-Gemini的创新之处在于其能够通过自训练和网络搜索集成来访问和整合最新的医疗信息,确保其知识保持最新。此外,模型还可以适应新的医疗数据格式,使其具备未来适应性。Med-Gemini能够处理各种数据类型,包括文本、图像、视频,甚至是医疗设备中的传感器读数。
Med-Gemini作为一系列基于Gemini的多模态医疗模型,其临床推理能力通过自训练和网络搜索集成得到增强,而多模态性能则通过微调和定制编码器得到提升。Med-Gemini模型在14个医疗基准测试中的10个中实现了最先进的性能,涵盖了文本、多模态和长文本应用,并且在可以直接比较的每个基准测试中都超越了GPT-4模型家族。
下面的条形图展示了模型在各个基准测试中相对于先前最先进性能的百分比增益。特别是在MedQA(USMLE)基准测试中,实现了新的最先进性能,比之前的最好成绩(Med-PaLM 2)高出4.6%。此外,通过专家临床医生重新标注的数据集显示,7.4%的问题因缺乏关键信息、答案错误或支持多种合理解释而被认为不适合评估。这些数据质量问题被考虑在内,以更精确地描述模型的性能。
Med-Gemini模型在多模态和长文本能力方面表现出色,这在其在几个基准测试中的最先进性能中得到了证明,包括从长、去标识的健康记录中检索针尖大小的信息,以及医疗视频问答基准测试。
Med-Gemini的实际应用潜力通过在医疗摘要、转诊信生成和医疗简化任务上的定量评估得到了证明,其中模型超越了人类专家,除了定性的多模态医疗对话示例外。