当前位置：动态资讯

OpenAI发布o3/o4-mini，视觉推理能力持续提升

发布时间：2025-04-23

4月17日，OpenAI近日由联合创始人Greg Brockman和首席研究官Mark Chen领衔，发布了新一代多模态推理模型o3和o4-mini，标志着人工智能在视觉推理和工具调用领域取得重大突破。此次发布通过20分钟线上直播展示，两款模型不仅刷新了编程、数学、视觉推理等领域的性能标杆，还首次开源了终端编程工具Codex CLI，该工具已在GitHub上获得超过5000星标。

o3和o4-mini的核心突破在于实现了"用图像思考"的视觉推理能力，通过思维链整合图像分析、工具调用和跨模态计算。o3凭借十倍于前代o1的算力，在Codeforces编程竞赛中达到全球前200名的"天才水平"，并能自主调用Python解释器、网络搜索等工具解决复杂问题，其临床医学诊断表现更被专家誉为"现象级"。o4-mini则以高性价比见长，在AIME数学测试中取得99.5%接近满分的成绩。两款模型通过原生图像处理功能，即使对模糊、倒置的图片也能精准分析，在V*等视觉基准测试中准确率达96.3%。同步开源的Codex CLI工具支持本地代码执行，配合模型API可实现屏幕截图直接生成可运行程序，已获GitHub超3.3万星关注。研究表明，强化学习的扩展定律在此次模型训练中依然有效，证明增加计算量和推理时间能持续提升性能。

此次发布由OpenAI首席执行官山姆·奥特曼亲自宣布，模型已面向ChatGPT Plus、Pro和Team用户开放，企业版和教育版用户将在一周内获得访问权限。开发者现可通过Chat Completions API调用新模型，响应API还新增了推理摘要和函数调用优化功能。

来源：阿尔法公社

新闻公告

OpenAI发布o3/o4-mini，视觉推理能力持续提升