Shiranai
我的羊听我的声音,我也认识他们,他们也跟着我。—— John 10:27
搜索关键字
搜索
首页
归档
关于
从强化学习到近端策略优化(PPO)
作者:
F
时间:
06-12-2025
分类:
开发随想
标签: none
取消回复
添加新评论
称呼
Email
网站
内容
提交评论
上一篇:
Post-LN Transformer 训练不稳定性的数学分析
下一篇:
谈 Keir Starmer
最新文章
Dynamic Construction of Causal Knowledge Graphs for Scientific Reasoning in Search Agents
Tongyi DeepResearch 技术报告深度分析
直接偏好优化(DPO)
谈 Keir Starmer
从强化学习到近端策略优化(PPO)
Post-LN Transformer 训练不稳定性的数学分析
MetaGPT Agent 动态 Action 机制详解
坐在工位前加班的时候突然想起去年的一些旅行旧事。
SWE-smith 部署与问题解决技术报告
DeepSeek + HuatuoGPT SFT 调试全记录
最近回复
分类
开发随想
胡言
论文笔记
归档
December 2025
November 2025
August 2025
July 2025
May 2025
April 2025
February 2025
January 2025
December 2024
November 2024
October 2024
September 2024
August 2024
June 2024
March 2024
January 2024
November 2023
October 2023
August 2023
July 2023
其它
登录
文章 RSS
评论 RSS
Typecho