VibeVoice：微软开源的语音AI模型

VibeVoice是微软开源的前沿语音AI模型家族，包含语音识别（ASR）和语音合成（TTS）两大方向。核心创新采用7.5Hz超低帧率的连续语音分词器，结合大语言模型与扩散模型实现高效长序列处理。目前已开源VibeVoice-ASR-7B（支持60分钟长音频识别）、VibeVoice-TTS-1.5B（已移除）及VibeVoice-Realtime-0.5B（实时流式TTS）。

核心技术架构: 采用连续语音分词器（声学+语义）以7.5Hz超低帧率运行，通过"下一token扩散"框架，利用大语言模型理解文本上下文，扩散头生成高保真声学细节。
VibeVoice-ASR功能: 统一语音转文本模型，单次处理60分钟长音频，生成包含说话人、时间戳、内容的结构化转录，支持自定义热词，原生支持50+语言，已集成Hugging Face Transformers库。
VibeVoice-TTS现状: 原支持90分钟长语音合成、4人多说话者对话，因被滥用已于2025年9月从仓库移除，仅保留研究论文。
VibeVoice-Realtime特性: 0.5B参数轻量化实时TTS模型，支持流式文本输入，首音延迟约300毫秒，可生成约10分钟长语音，新增9种多语言及11种英语风格实验音色。
风险提示: 模型可能产生意外、偏见或不准确输出，存在深度伪造和虚假信息滥用风险，仅限研发用途，不建议直接商用。

VibeVoice：微软开源的语音AI模型

内容

评论

摘要