Gemini 3.1 Flash TTS:新一代富有表现力的人工智能语音

2
分类业界资讯
作者Google
来源跳转
发表时间

内容

Google发布Gemini 3.1 Flash TTS,新一代文本转语音模型,通过音频标签实现精细化语音控制,支持70+语言、多说话人对话,并以低成本提供高质量语音生成,适用于开发者、企业和Workspace用户。

  • 核心性能提升: 在Artificial Analysis TTS排行榜获Elo评分1211,位列"最具吸引力象限",兼具高质量与低成本优势。
  • 音频标签创新: 嵌入自然语言指令直接控制语音风格、语速和表达方式,实现句中情绪切换等精细化调节。
  • 开发者工具: Google AI Studio提供场景设定、说话人定制和无缝导出功能,支持将参数导出为Gemini API代码。
  • 全球化部署: 覆盖70+语言,支持多说话人对话,助力企业构建本地化沉浸式语音体验。
  • 安全机制: 所有生成音频嵌入SynthID不可感知水印,支持AI内容检测以防止虚假信息传播。

评论

(0)
未配置登录方式
暂无评论