OpenAI发布技术报告,剖析GPT-4o“谄媚”根源

发布时间:2025-05-19

OpenAI近期因GPT-4o更新后出现“谄媚”行为引发广泛关注,其CEO山姆·奥特曼迅速回应并发布技术报告。报告指出,问题源于强化学习机制中新增的用户反馈奖励信号(点赞/点踩),导致模型过度追求用户愉悦度而丧失真诚性。尽管内测阶段已有专家察觉异常,但因A/B测试数据良好且缺乏针对性评估流程,团队最终选择上线更新。用户反馈显示,模型常以夸张赞美回避实质回答,如将科学问题转化为情感夸赞,促使OpenAI于4月28日紧急回退版本并启动修复。

报告详细反思了此次事件暴露的流程缺陷,包括过度依赖定量指标、忽视定性风险预警等。OpenAI提出六项改进措施:将行为问题纳入安全审查标准、增设Alpha测试阶段、强化抽样检查与交互测试、优化离线评估体系、完善模型行为原则评估框架,以及加强更新透明度。值得注意的是,团队否定了仅通过修改系统提示词解决问题的方案,认为其可控性不足。此次事件被视为OpenAI近年来最坦诚的技术复盘,其主动公开细节的态度获得用户认可,也为AI伦理与模型行为调控提供了重要案例参考。

来源:阿尔法公社