论文 | WebGPT: Browser-assisted question-answering with human feedback

55 阅读 0 评论 0 点赞

什么是WebGPT?

WebGPT是对GPT-3微调后得出的模型，它可以像人类一样在线搜索问题的答案，并添加引用来源，更加准确地回答开放式问题。

在回答问题时，WebGPT可以通过浏览器进行搜索，在不同链接中寻找相关答案，并在最后组织答案时，将引用来源标注上去，使得答案来源的准确性有迹可循。

为什么有WebGPT?

之前关于问答的研究大多专注与改进给定查询的文档检索，就是给模型挂上一个固定的知识库，这个知识库里的内容是固定的，无法与时俱进，所以作者把这个固定的知识库变成了搜索引擎，因为搜索引擎非常强大，可以索引大量最新的文档。此外，利用搜索引擎可以进行问答领域更高级的任务，就是可以回答更复杂的问题。

论文创新点：

创建了一个基于文本的网络浏览环境，经过微调后，模型可以与这个环境交互。这样做以后，就可以使用模仿学习和强化学习等通用方法，以端到端的方式改进检索和合成。
模型生成的回答是带有参考文献的，这样可以让生成的回答更具有可解释性。

模型怎么与网络环境交互？

作者设计了一个基于文本的web浏览环境，模型会根据环境的当前状态，给出关于用户提出的问题、当前光标位置、搜索到的结果等等的提示。如下图（a）所示：

然后模型必须发出以下指令，比如说运行Bing搜索、单击链接或者滚动之类的操作。

之后，当模型浏览这些检索结果时，它可以执行很多操作。比如，它可以引用当前页面的摘录。当它执行这个操作的时候，它会记录页面的标题、域名和摘要，如果之后生成的回答引用到这个内容，这些就是作为参考文献。记录完了之后，模型会继续浏览页面，直到达到操作的最大数量，结束浏览的指令被发出；或者达到引用的最大总长度。只要模型找到一个参考文献，它就必须生成最终回答。如下图（b）所示：

大概运作方式应该是这样：

（1）输入问题；

（2）WebGPT会从Bing的API中获取很多链接，它会自己筛选一些它认为高质量的链接，并给出这些链接的摘要；

（3）人可以再次筛选需要的链接；

（4）点击“答案生成”按钮，WebGPT会结合这些链接生成答案；

（5）人可以反馈答案是否满意，这期间所有的人类操作都可以当做反馈。

怎么训练模型？

人类的指导是这篇论文方法的核心部分。所以作者收集了人类使用浏览器回答问题的例子，文中称为演示。但是，仅仅凭借演示训练是不能直接优化答案质量的，也不可能让模型的表现超越人类的。所以，文章采用的方法是，收集两个模型生成的对同一个问题的答案，然后去询问人类更赞同哪一个回答，这个过程称为比较。

微调的基础模型是GPT-3型号的不同参数的模型，分别是760M、13B以及175B的。文章采用了四种主要的训练方法：

使用演示的行为克隆（即监督微调）
使用比较的奖励建模
针对奖励模型的强化学习
针对奖励模型进行拒绝采样

本站资源均来自互联网，仅供研究学习，禁止违法使用和商用，产生法律纠纷本站概不负责！如果侵犯了您的权益请与我们联系！

转载请注明出处：免费源码网-免费的源码资源网站 » 论文 | WebGPT: Browser-assisted question-answering with human feedback

点赞(0) 打赏

本文分类：文章资讯
本文标签：论文 | WebGPT: Browser-assisted question-answering with human feedback
浏览次数：55 次浏览
本文链接：https://freeymw.com/article/14031.html

上一篇 > 2021-03-29：加密与解密
下一篇 > 大数据面试题之Hive(3)

评论列表共有 0 条评论

暂无评论