Mistral AI 发布开源语音模型Voxtral,全面超越Whisper
发布时间:2025-07-18智东西 7 月 16 日消息,由谷歌和 Meta 前研究人员创立的 AI 初创公司 Mistral AI,发布了其首个开源语音模型:Voxtral 语音理解模型系列。该模型包含 24B 和 3B 两个参数规模版本,基于 Apache 2.0 许可证开源,并提供 API 服务接口。
Voxtral 支持 32k token 的上下文窗口,可处理长达 30 分钟的音频转录任务或 40 分钟的语义理解任务,能支持法语、英语、印地语等语言,甚至可精准处理多语言混杂及含背景音的场景。
性能方面,Voxtral 在多项基准测试中全面超越目前主流的开源语音转录模型 Whisper large-v3。在英语短音频,以及覆盖多种语言和方言的大规模语音数据库Mozilla Common Voice基准上,Voxtral Small超越Gemini 2.5 Flash与GPT-4o mini Transcribe,在英语长音频测试上也超越了Scribe和GPT-4o mini Transcribe;在多语言基准测试 FLEURS 中,Voxtral Small 在所有任务上超越 Whisper large-V3,且在法语和德语任务中位居榜首;在语音翻译任务 FLEURS Translation 中,超越 GPT-4o-mini 及 Gemini 2.5 Flash,位列第一。
此外,Voxtral 继承了 Mistral Small 3.1 基座模型的文本理解能力,除语音转录外,还能直接对音频内容进行问答交互、生成结构化摘要,并通过语音指令触发 API 调用。
成本方面,Voxtral Mini 转录版性能优于 OpenAI Whisper,使用成本仅为后者的 50% 以下。开发者可通过 Hugging Face 平台获取模型进行本地部署,或使用云端 API 服务,企业级应用支持私有化部署。
Mistral AI 表示,未来两周内 Voxtral 模型将在网页和移动端的语音模式中向所有用户推出,未来几个月还计划持续增强音频处理能力,新增说话人分割、音频标记、词级时间戳、非语音音频识别等功能。
参考链接:https://mp.weixin.qq.com/s/OVO8e5MwATdD-SfUvmcNNQ
来源:智东西