当前位置：动态资讯

Mistral AI 发布开源语音模型Voxtral，全面超越Whisper

发布时间：2025-07-18

智东西 7 月 16 日消息，由谷歌和 Meta 前研究人员创立的 AI 初创公司 Mistral AI，发布了其首个开源语音模型：Voxtral 语音理解模型系列。该模型包含 24B 和 3B 两个参数规模版本，基于 Apache 2.0 许可证开源，并提供 API 服务接口。

Voxtral 支持 32k token 的上下文窗口，可处理长达 30 分钟的音频转录任务或 40 分钟的语义理解任务，能支持法语、英语、印地语等语言，甚至可精准处理多语言混杂及含背景音的场景。

性能方面，Voxtral 在多项基准测试中全面超越目前主流的开源语音转录模型 Whisper large-v3。在英语短音频，以及覆盖多种语言和方言的大规模语音数据库Mozilla Common Voice基准上，Voxtral Small超越Gemini 2.5 Flash与GPT-4o mini Transcribe，在英语长音频测试上也超越了Scribe和GPT-4o mini Transcribe；在多语言基准测试 FLEURS 中，Voxtral Small 在所有任务上超越 Whisper large-V3，且在法语和德语任务中位居榜首；在语音翻译任务 FLEURS Translation 中，超越 GPT-4o-mini 及 Gemini 2.5 Flash，位列第一。

此外，Voxtral 继承了 Mistral Small 3.1 基座模型的文本理解能力，除语音转录外，还能直接对音频内容进行问答交互、生成结构化摘要，并通过语音指令触发 API 调用。

成本方面，Voxtral Mini 转录版性能优于 OpenAI Whisper，使用成本仅为后者的 50% 以下。开发者可通过 Hugging Face 平台获取模型进行本地部署，或使用云端 API 服务，企业级应用支持私有化部署。

Mistral AI 表示，未来两周内 Voxtral 模型将在网页和移动端的语音模式中向所有用户推出，未来几个月还计划持续增强音频处理能力，新增说话人分割、音频标记、词级时间戳、非语音音频识别等功能。

参考链接：https://mp.weixin.qq.com/s/OVO8e5MwATdD-SfUvmcNNQ

来源：智东西

新闻公告

Mistral AI 发布开源语音模型Voxtral，全面超越Whisper