OpenAI发布o3/o4-mini,视觉推理能力持续提升
发布时间:2025-04-234月17日,OpenAI近日由联合创始人Greg Brockman和首席研究官Mark Chen领衔,发布了新一代多模态推理模型o3和o4-mini,标志着人工智能在视觉推理和工具调用领域取得重大突破。此次发布通过20分钟线上直播展示,两款模型不仅刷新了编程、数学、视觉推理等领域的性能标杆,还首次开源了终端编程工具Codex CLI,该工具已在GitHub上获得超过5000星标。
o3和o4-mini的核心突破在于实现了"用图像思考"的视觉推理能力,通过思维链整合图像分析、工具调用和跨模态计算。o3凭借十倍于前代o1的算力,在Codeforces编程竞赛中达到全球前200名的"天才水平",并能自主调用Python解释器、网络搜索等工具解决复杂问题,其临床医学诊断表现更被专家誉为"现象级"。o4-mini则以高性价比见长,在AIME数学测试中取得99.5%接近满分的成绩。两款模型通过原生图像处理功能,即使对模糊、倒置的图片也能精准分析,在V*等视觉基准测试中准确率达96.3%。同步开源的Codex CLI工具支持本地代码执行,配合模型API可实现屏幕截图直接生成可运行程序,已获GitHub超3.3万星关注。研究表明,强化学习的扩展定律在此次模型训练中依然有效,证明增加计算量和推理时间能持续提升性能。
此次发布由OpenAI首席执行官山姆·奥特曼亲自宣布,模型已面向ChatGPT Plus、Pro和Team用户开放,企业版和教育版用户将在一周内获得访问权限。开发者现可通过Chat Completions API调用新模型,响应API还新增了推理摘要和函数调用优化功能。
来源:阿尔法公社