Introduction

  • 作者提出 Self-Rewarding 训练框架,LLM 在训练过程中同时担任 actor 和 critic,actor 负责合成新数据,critic 负责判断合成数据质量用于组成高质量的偏好数据集用于模型的下一轮训练,在训练过程中,模型的 actor 和 critic 能力也会同步得到提升,从而逐步生成更高质量的数据并基于此不断迭代训练,使得 LLM 训练仅需少量人工标注数据,并获得 super-human feedback

Method

在这里插入图片描述

  • Initialization. 初始训练阶段需要一定量人类标注的 Seed instruction following dataSeed LLM-as-a-Judge instruction following data,使得预训练 LLM 获得一定的指令服从和回复质量评估能力
  • Self-Instruction Creation. 一轮训练完成后,LLM 可以自行生成 AI Feedback Training (AIFT) data 加入原始数据集用于下一轮训练. (1) 使用 few-shot prompting 生成新 prompts;(2) LLM 对每个 prompt 采样生成 N N N 个 responses;(3) 通过 LLM-as-a-Judge 给每个 response 评分,然后选择评分最高和最低的 responses 组成 preference pairs 用于下一轮 DPO 训练

Experiments

  • Instruction Following Ability.
    在这里插入图片描述在这里插入图片描述在这里插入图片描述在这里插入图片描述在这里插入图片描述
  • Reward Modeling Ability.
    在这里插入图片描述

References

点赞(0) 打赏

评论列表 共有 0 条评论

暂无评论

微信公众账号

微信扫一扫加关注

发表
评论
返回
顶部