今天,我们通过 Google AI Studio 中的 Gemini Live API 推出了 Gemini 3.1 Flash Live。Gemini 3.1 Flash Live 帮助开发者构建实时语音和视觉智能体,这些智能体不仅能够处理周围世界的信息,还能以对话级速度作出响应。
这在延迟、可靠性以及更自然的对话表现方面实现了跨越式提升,提供了下一代语音优先 AI 所需的质量水平。
对于实时交互而言,哪怕只是几毫秒的延迟,也会破坏用户所期待的自然对话流。新模型对语气、重音和意图的理解更出色,使智能体在以下关键方面得到改进:
开发者正在积极构建语音智能体,借助 Gemini Flash Live 模型,这些智能体能够以自然的节奏与韵律进行交流,并可靠地执行操作。以下是一些使用该模型驱动对话交互的真实应用示例:
借助 Gemini Live API,Stitch 现已支持用户通过语音进行氛围化设计(vibe design)。该智能体可以“看见”画布和已选屏幕,并提供设计点评、生成变体等。
Live API 面向生产环境打造,但现实世界的系统需要处理多样化输入,从实时视频流到按需电话呼叫。
对于需要 WebRTC 扩展能力或全球边缘路由的系统,我们建议探索我们的合作伙伴集成方案,以简化实时语音和视频智能体的开发。
Gemini 3.1 Flash Live 自今日起已通过 Gemini API 和 Google AI Studio 提供。开发者可使用 Gemini Live API 将该模型集成到自己的应用中。
查阅我们的开发者文档,了解如何构建实时智能体:
通过 Google GenAI SDK 开始上手: