[Arxiv 2024] Self-Rewarding Language Models

32 阅读 0 评论 0 点赞

Contents

Introduction
Method
Experiments
References

Introduction

作者提出 Self-Rewarding 训练框架，LLM 在训练过程中同时担任 actor 和 critic，actor 负责合成新数据，critic 负责判断合成数据质量用于组成高质量的偏好数据集用于模型的下一轮训练，在训练过程中，模型的 actor 和 critic 能力也会同步得到提升，从而逐步生成更高质量的数据并基于此不断迭代训练，使得 LLM 训练仅需少量人工标注数据，并获得 super-human feedback

Method

在这里插入图片描述

Initialization. 初始训练阶段需要一定量人类标注的 Seed instruction following data 和 Seed LLM-as-a-Judge instruction following data，使得预训练 LLM 获得一定的指令服从和回复质量评估能力
Self-Instruction Creation. 一轮训练完成后，LLM 可以自行生成 AI Feedback Training (AIFT) data 加入原始数据集用于下一轮训练. (1) 使用 few-shot prompting 生成新 prompts；(2) LLM 对每个 prompt 采样生成 $N$ 个 responses；(3) 通过 LLM-as-a-Judge 给每个 response 评分，然后选择评分最高和最低的 responses 组成 preference pairs 用于下一轮 DPO 训练

Experiments

Instruction Following Ability.
Reward Modeling Ability.

References

本站资源均来自互联网，仅供研究学习，禁止违法使用和商用，产生法律纠纷本站概不负责！如果侵犯了您的权益请与我们联系！

转载请注明出处：免费源码网-免费的源码资源网站 » [Arxiv 2024] Self-Rewarding Language Models

点赞(0) 打赏

本文分类：文章资讯
本文标签：[Arxiv 2024] Self-Rewarding Language Models
浏览次数：32 次浏览
本文链接：https://freeymw.com/article/24559.html

上一篇 > 11、Flink 流上的确定性之批处理详解
下一篇 > HTML静态网页成品作业(HTML+CSS)——游戏战地介绍设计制作(4个页面)

评论列表共有 0 条评论

暂无评论

发表评论取消回复

微信公众账号

微信扫一扫加关注

发表
评论返回
顶部