使用 Gemini 3.1 Flash Live 构建实时对话智能体

4
分类业界资讯
作者Google
来源跳转
发表时间

内容

今天,我们通过 Google AI Studio 中的 Gemini Live API 推出了 Gemini 3.1 Flash Live。Gemini 3.1 Flash Live 帮助开发者构建实时语音和视觉智能体,这些智能体不仅能够处理周围世界的信息,还能以对话级速度作出响应。

这在延迟、可靠性以及更自然的对话表现方面实现了跨越式提升,提供了下一代语音优先 AI 所需的质量水平。

体验更优的延迟、可靠性与质量

对于实时交互而言,哪怕只是几毫秒的延迟,也会破坏用户所期待的自然对话流。新模型对语气、重音和意图的理解更出色,使智能体在以下关键方面得到改进:

  • 在嘈杂的真实环境中拥有更高的任务完成率:我们显著提升了模型在实时对话中触发外部工具并传递信息的能力。通过更准确地区分相关语音与交通声、电视声等环境噪音,模型能够更有效地过滤背景噪声,从而保持可靠性并及时响应指令。
  • 更强的指令遵循能力:模型对复杂系统指令的遵循程度显著提升。即使对话出现意料之外的走向,你的智能体也能始终保持在其操作边界之内。
  • 更自然、低延迟的对话:与 2.5 Flash Native Audio 相比,最新模型在延迟方面进一步优化,并且在识别音高、语速等声学细微差别上更为有效,让实时对话更加流畅自然。
  • 多语言能力:该模型支持 90 多种语言的实时多模态对话。

查看 Gemini Live API 的实际应用

开发者正在积极构建语音智能体,借助 Gemini Flash Live 模型,这些智能体能够以自然的节奏与韵律进行交流,并可靠地执行操作。以下是一些使用该模型驱动对话交互的真实应用示例:

借助 Gemini Live API,Stitch 现已支持用户通过语音进行氛围化设计(vibe design)。该智能体可以“看见”画布和已选屏幕,并提供设计点评、生成变体等。

借助不断扩展的集成生态进行构建

Live API 面向生产环境打造,但现实世界的系统需要处理多样化输入,从实时视频流到按需电话呼叫。

对于需要 WebRTC 扩展能力或全球边缘路由的系统,我们建议探索我们的合作伙伴集成方案,以简化实时语音和视频智能体的开发。

开始使用 Live API

Gemini 3.1 Flash Live 自今日起已通过 Gemini API 和 Google AI Studio 提供。开发者可使用 Gemini Live API 将该模型集成到自己的应用中。

查阅我们的开发者文档,了解如何构建实时智能体:

  • Gemini Live API 文档:探索多语言支持、工具使用与函数调用、会话管理(用于管理长时间运行的对话)以及临时令牌(ephemeral tokens)等功能。
  • Gemini Live API 示例:获取灵感,了解你现在就可以借助该模型构建哪些语音体验。
  • Gemini Live API Skill:供编码智能体学习并基于 Live API 进行构建。

通过 Google GenAI SDK 开始上手:

评论

(0)
未配置登录方式
暂无评论