Google最近推出的Gemini 1.5 Pro模型在人工智能领域树立了一个新的里程碑。这款新模型具备原生音频理解能力,能够处理系统指令,并支持JSON模式,为全球开发者带来了前所未有的新机遇。
Gemini 1.5 Pro模型引入了原生音频理解功能,扩展了其输入模式,包括语音识别。此外,该模型现在能够跨图像和音频输入对视频进行推理,为更全面的数据的分析和解释铺平了道路。
响应开发者的反馈,Google对Gemini API进行了几项改进。开发者现在可以访问系统指令,根据特定用例引导模型的响应。此外,新的JSON模式便于从文本或图像中提取结构化数据,提供了更大的灵活性和控制力。