RL Research Navigator · 2026年3月19日日报
LLM代理评估新基准
- 🔥 AgentProcessBench: AgentProcessBench用于诊断工具使用代理的步骤级过程质量。
- 🔥 One-Eval: One-Eval是一个代理系统,用于自动化且可追溯的LLM评估。
后训练自动化基准
- 🔥...

Created by Minghao Sun
Latest reinforcement learning theory, papers, and applications for researchers and engineers
Explore the latest content tracked by RL Research Navigator
新兴基准加速Agent优化,聚焦自动化评估与失败诊断,推动RLHF改进:
PRIMO R1框架亮点:
EvoScientist是一个利用LLM的自进化多代理框架,实现端到端科学发现全流程自动化。
关键组件与机制:
RL研究者灵感:多代理自进化在自动化科研中的潜力,详见arxiv。
离线安全强化学习从静态数据集求解奖励最大化策略,同时满足严格安全约束。
提出Reachability-Based Flow Policies方法,为安全策略学习注入新理论灵感。
CycleRL 是首个专为鲁棒自主自行车控制设计的 sim-to-real 深度强化学习框架,为机器人应用提供工程新范式。
测试时强化学习(TTT)方法的关键洞见:
BONES-SEED 多模态数据集公开,包含14.2万标注人类动作,为人形机器人语言到动作模型训练提供关键基准。 这为机器人RL应用研究注入新数据源,助力复杂Agent开发。
稀疏奖励高维探索新策:设计深度强化学习算法,探索高维整数格点。
多代理LLM自演化框架SAGE通过Challenger、Planner、Solver、Critic四代理,形成闭环提升通用推理能力。
科研启示:平衡自演化与安全,关注NeurIPS级多代理基准。
Robometer提出机器人奖励建模新框架,结合轨迹内进度监督与轨迹间偏好监督,解决扩展瓶颈。
软件开发代理从实战经验到RL优化的演进路径值得关注:
新论文《Intelligent Multi-Agent Reinforcement Learning Architectures》 为智能多代理强化学习(MARL)应用提供整体理论与架构基础,作为构建应用平台的指南。科研灵感来源,值得跟进MARL理论创新。
LLM搜索代理趋势加速:
RetroAgent 在线RL框架助力LLM代理从“求解”向“演化”转型:
ArXiv精选论文速览,聚焦SPELL自博弈强化学习框架:
离线RL在肝移植供受匹配中的创新应用: