40余名科学家联合撰文:AI推理监控窗口期短暂
发布时间:2025-07-187月15日,40余名来自OpenAI、Meta、Google DeepMind等机构的科学家联合发布关于AI推理模型思维链的立场文件,呼吁加强对AI思维链监控的研究。
文件指出, AI已能使用人类语言进行思考,其“思维链”监控为AI安全提供了独特机会。当前 AI 在执行复杂任务时,必须通过思维链进行推理,这让监控其潜在风险有了可乘之机。,但这种可监控性较为脆弱,可能因模型架构或训练方式的改变而被削弱。
科学家们警示,未来AI模型或许会隐藏推理过程,导致监控失效。因此他们倡议开发者探索如何让模型具备可监控性,并将其作为提升模型安全性的重要部分。同时,要开发标准化的评估方法,定期公布模型的思维链可监控性评估结果,并在训练和部署决策中考虑可监控性指标。
值得注意的是,思维链监控虽重要,但不能替代其他安全措施。他们呼吁业界充分利用当前的可监控性,同时研究如何保持其有效性,以应对未来可能出现的更复杂AI模型带来的挑战。
https://mp.weixin.qq.com/s/nIG_dWnDHRZkVVAEkOVpPQ
来源:DeepTech深科技