Google发布Gemini 3.1 Flash TTS,新一代文本转语音模型,通过音频标签实现精细化语音控制,支持70+语言、多说话人对话,并以低成本提供高质量语音生成,适用于开发者、企业和Workspace用户。

- 核心性能提升: 在Artificial Analysis TTS排行榜获Elo评分1211,位列"最具吸引力象限",兼具高质量与低成本优势。
- 音频标签创新: 嵌入自然语言指令直接控制语音风格、语速和表达方式,实现句中情绪切换等精细化调节。
- 开发者工具: Google AI Studio提供场景设定、说话人定制和无缝导出功能,支持将参数导出为Gemini API代码。
- 全球化部署: 覆盖70+语言,支持多说话人对话,助力企业构建本地化沉浸式语音体验。
- 安全机制: 所有生成音频嵌入SynthID不可感知水印,支持AI内容检测以防止虚假信息传播。