隆重推出 MAI-Transcribe-1、MAI-Voice-1 和 MAI-Image-2 三大旗舰模型。这些模型以闪电般的速度提供世界级品质,并以最具竞争力的价格面向用户开放。
现已在 Microsoft Foundry 和 MAI Playground 平台正式上线。
MAI-Transcribe-1 在行业权威基准测试 FLEURS 中,支持全球使用频率最高的 25 种语言,实现最先进的语音转文本(speech-to-text)转录功能。该模型专为嘈杂的真实环境设计,具备卓越的抗干扰能力。其批量转录速度比现有 Microsoft Azure Fast 服务快 2.5 倍,同时保持极高的准确性。因此,MAI-Transcribe-1 不仅是最精准的模型,更是速度最快的解决方案。目前,它已成为各大云服务商中性价比最高的大型语言模型。

“越低越好”——这是我们对性能的承诺。
MAI-Voice-1 是我们最先进的语音生成模型。它能够生成自然、富有情感层次和表现力的语音,即使在长文本内容中也能保留说话者的独特音色与身份特征。
今天起,用户只需几秒钟的音频样本,即可在 Microsoft Foundry 上安全、私密地创建专属定制语音。这将极大提升开发者在构建语音交互体验和智能语音助手方面的效率,兼顾高质量与高速度。
该模型仅需 1 秒即可生成 60 秒的音频内容,并通过高效的 GPU 资源利用,实现高性价比的优质输出。亲身体验才是真知——欢迎通过 Copilot Audio Expressions 或 Copilot Podcasts 一探究竟。
继在 Arena.ai 排行榜中跻身前三之后,MAI-Image-2 在 Copilot 上的图像生成性能与速度均获得显著提升。基于真实生产环境数据,用户在 Foundry 和 Copilot 平台上体验到的图像生成速度至少提升 2 倍,且画质保持高度一致。目前,该模型已在 Bing 和 PowerPoint 中逐步部署。
MAI-Image-2 专为摄影师、设计师及视觉叙事创作者打造,特别优化了自然光影效果、肤色还原度以及图像中文本的清晰度,适用于图表、排版和图形设计等场景。再次证明:速度与质量无需牺牲成本——MAI-Image-2 以极具竞争力的价格性能比为用户提供优质服务。
企业客户已开始广泛应用 MAI-Image-2 进行创意工作。全球领先的营销与传播集团 WPP 便是首批大规模采用该模型的合作伙伴之一。
“MAI-Image-2 真正改变了游戏规则。它不仅精准响应创意指导的细微要求,更深刻理解生成真实可用、可直接用于 campaign 的图像所需的专业技艺。”WPP 全球首席创意官 Rob Reilly 表示:“WPP 拥有世界一流的创意人才,而 MAI-Image-2 正帮助他们更上一层楼。”


以上图片均由 WPP 使用 MAI-Image-2 创作完成
我们正在加速将这些顶级模型集成至自身消费级与企业级产品中。我们很高兴向 Microsoft Foundry 客户提供这些兼具高品质、高效率与高性价比的解决方案。
即日起,所有开发者均可通过 Microsoft Foundry 使用包括 MAI-Transcribe-1 在内的 MAI 系列模型。您也可在美国地区访问 MAI Playground 进行试用。
若您对 MAI 模型感兴趣但尚未开通 Foundry 权限?
请填写 此表单,我们将尽快与您联系。
在 Microsoft AI,我们致力于构建“人文主义 AI”(Humanist AI)。我们的模型设计理念始终以人为本,专注于优化真实交流方式,并针对实际应用场景进行训练。未来将有更多 MAI 模型陆续登陆 Foundry 及 Microsoft 全系产品与体验中。
秉承对安全与负责任 AI 的承诺,上述 MAI 模型均经过严格开发、测试与红队对抗演练。通过 Microsoft Foundry,开发者可获得内置防护机制、治理框架及企业级管控工具,确保大规模部署时的合规性与安全性。
📚 下载 MAI-Transcribe-1 模型卡片
📚 下载 MAI-Voice-1 模型卡片
📚 下载 MAI-Image-2 模型卡片