清华团队推出强化学习SOTA新算法,攻克算法价值高估问题,可实现AI可靠决策
发布时间:2025-07-18DeepTech深科技7 月 9 日消息,近期,清华大学李克强院士、李升波教授团队提出了一种改进的强化学习算法——DSAC-T(Distributional Soft Actor-Critic with Three Refinements),通过三项核心技术突破传统算法瓶颈,为 AI 可靠决策提供关键支撑。
该算法基于分布式评价框架,创新引入期望值替代、双值分布学习和方差梯度调整技术,解决了价值估计不准、参数敏感等问题。在 12 项基准测试中全面领先,Humanoid-v3 任务中,DSAC-T 的性能比 OpenAI 的 PPO 算法和 DeepMind 的 DDPG 算法高出 50% 以上,在高维复杂场景中性能优势尤为显著。其通用性突出,同一组超参数可以在 12 类不同任务(包括基于图像输入的复杂任务)中都保持良好性能,显著降低了实际应用中的部署成本。
这套技术方案具有广泛的应用前景,可支持多个领域的智能系统模型训练,包括端到端自动驾驶、具身智能机器人以及工程机械无人作业等场景。团队表示,将持续优化和迭代 DSAC-T 算法,进一步提升其性能表现。
目前,DSAC系列两代算法及工具链平台 GOPS 已开源,相关论文以《Distributional Soft Actor-Critic with Three Refinements》为题发表在 IEEE Transactions on Pattern Analysis and Machine Intelligence。
https://mp.weixin.qq.com/s/n0BOZJsLt_TpKYTNWtuDGA
来源:DeepTech深科技