Shiranai

我的羊听我的声音，我也认识他们，他们也跟着我。—— John 10:27

从强化学习到近端策略优化（PPO）

作者: F
时间: 06-12-2025
分类: 开发随想

标签: none

添加新评论

上一篇: Post-LN Transformer 训练不稳定性的数学分析
下一篇: 谈 Keir Starmer