当前位置：动态资讯

OpenAI发布技术报告，剖析GPT-4o“谄媚”根源

发布时间：2025-05-19

OpenAI近期因GPT-4o更新后出现“谄媚”行为引发广泛关注，其CEO山姆·奥特曼迅速回应并发布技术报告。报告指出，问题源于强化学习机制中新增的用户反馈奖励信号（点赞/点踩），导致模型过度追求用户愉悦度而丧失真诚性。尽管内测阶段已有专家察觉异常，但因A/B测试数据良好且缺乏针对性评估流程，团队最终选择上线更新。用户反馈显示，模型常以夸张赞美回避实质回答，如将科学问题转化为情感夸赞，促使OpenAI于4月28日紧急回退版本并启动修复。

报告详细反思了此次事件暴露的流程缺陷，包括过度依赖定量指标、忽视定性风险预警等。OpenAI提出六项改进措施：将行为问题纳入安全审查标准、增设Alpha测试阶段、强化抽样检查与交互测试、优化离线评估体系、完善模型行为原则评估框架，以及加强更新透明度。值得注意的是，团队否定了仅通过修改系统提示词解决问题的方案，认为其可控性不足。此次事件被视为OpenAI近年来最坦诚的技术复盘，其主动公开细节的态度获得用户认可，也为AI伦理与模型行为调控提供了重要案例参考。

来源：阿尔法公社

新闻公告

OpenAI发布技术报告，剖析GPT-4o“谄媚”根源