使用 Gemini 3.1 Flash Live 构建实时对话智能体

12
分类业界资讯
作者Google
来源跳转
发表时间

内容

今天,我们通过 Google AI Studio 中的 Gemini Live API 推出了 Gemini 3.1 Flash Live。Gemini 3.1 Flash Live 帮助开发者构建实时语音和视觉智能体,这些智能体不仅能够处理周围世界的信息,还能以对话级速度作出响应。

这在延迟、可靠性以及更自然的对话表现方面实现了跨越式提升,提供了下一代语音优先 AI 所需的质量水平。

体验更优的延迟、可靠性与质量

对于实时交互而言,哪怕只是几毫秒的延迟,也会破坏用户所期待的自然对话流。新模型对语气、重音和意图的理解更出色,使智能体在以下关键方面得到改进:

  • 在嘈杂的真实环境中拥有更高的任务完成率:我们显著提升了模型在实时对话中触发外部工具并传递信息的能力。通过更准确地区分相关语音与交通声、电视声等环境噪音,模型能够更有效地过滤背景噪声,从而保持可靠性并及时响应指令。
  • 更强的指令遵循能力:模型对复杂系统指令的遵循程度显著提升。即使对话出现意料之外的走向,你的智能体也能始终保持在其操作边界之内。
  • 更自然、低延迟的对话:与 2.5 Flash Native Audio 相比,最新模型在延迟方面进一步优化,并且在识别音高、语速等声学细微差别上更为有效,让实时对话更加流畅自然。
  • 多语言能力:该模型支持 90 多种语言的实时多模态对话。

查看 Gemini Live API 的实际应用

开发者正在积极构建语音智能体,借助 Gemini Flash Live 模型,这些智能体能够以自然的节奏与韵律进行交流,并可靠地执行操作。以下是一些使用该模型驱动对话交互的真实应用示例:

借助 Gemini Live API,Stitch 现已支持用户通过语音进行氛围化设计(vibe design)。该智能体可以“看见”画布和已选屏幕,并提供设计点评、生成变体等。

借助不断扩展的集成生态进行构建

Live API 面向生产环境打造,但现实世界的系统需要处理多样化输入,从实时视频流到按需电话呼叫。

对于需要 WebRTC 扩展能力或全球边缘路由的系统,我们建议探索我们的合作伙伴集成方案,以简化实时语音和视频智能体的开发。

开始使用 Live API

Gemini 3.1 Flash Live 自今日起已通过 Gemini API 和 Google AI Studio 提供。开发者可使用 Gemini Live API 将该模型集成到自己的应用中。

查阅我们的开发者文档,了解如何构建实时智能体:

  • Gemini Live API 文档:探索多语言支持、工具使用与函数调用、会话管理(用于管理长时间运行的对话)以及临时令牌(ephemeral tokens)等功能。
  • Gemini Live API 示例:获取灵感,了解你现在就可以借助该模型构建哪些语音体验。
  • Gemini Live API Skill:供编码智能体学习并基于 Live API 进行构建。

通过 Google GenAI SDK 开始上手:

评论

(0)
未配置登录方式
暂无评论