VibeVoice:微软开源的语音AI模型

2
分类开源项目
作者Microsoft
来源跳转
发表时间

内容

VibeVoice是微软开源的前沿语音AI模型家族,包含语音识别(ASR)和语音合成(TTS)两大方向。核心创新采用7.5Hz超低帧率的连续语音分词器,结合大语言模型与扩散模型实现高效长序列处理。目前已开源VibeVoice-ASR-7B(支持60分钟长音频识别)、VibeVoice-TTS-1.5B(已移除)及VibeVoice-Realtime-0.5B(实时流式TTS)。

  • 核心技术架构: 采用连续语音分词器(声学+语义)以7.5Hz超低帧率运行,通过"下一token扩散"框架,利用大语言模型理解文本上下文,扩散头生成高保真声学细节。
  • VibeVoice-ASR功能: 统一语音转文本模型,单次处理60分钟长音频,生成包含说话人、时间戳、内容的结构化转录,支持自定义热词,原生支持50+语言,已集成Hugging Face Transformers库。
  • VibeVoice-TTS现状: 原支持90分钟长语音合成、4人多说话者对话,因被滥用已于2025年9月从仓库移除,仅保留研究论文。
  • VibeVoice-Realtime特性: 0.5B参数轻量化实时TTS模型,支持流式文本输入,首音延迟约300毫秒,可生成约10分钟长语音,新增9种多语言及11种英语风格实验音色。
  • 风险提示: 模型可能产生意外、偏见或不准确输出,存在深度伪造和虚假信息滥用风险,仅限研发用途,不建议直接商用。

评论

(0)
未配置登录方式
暂无评论