位置: IT常识 - 正文

RLHF:基于人类反馈(Human Feedback)对语言模型进行强化学习【Reinforcement Learning from Human Feedback】

编辑:rootadmin
RLHF:基于人类反馈(Human Feedback)对语言模型进行强化学习【Reinforcement Learning from Human Feedback】

推荐整理分享RLHF:基于人类反馈(Human Feedback)对语言模型进行强化学习【Reinforcement Learning from Human Feedback】,希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:,内容如对您有帮助,希望把文章链接给更多的朋友!

HuggingFace发表了一篇博客,详细讲解了ChatGPT背后的技术原理——RLHF。

笔者读过之后,觉得讲解的还是蛮清晰的,因此提炼了一下核心脉络,希望给对ChatGPT技术原理感兴趣的小伙伴带来帮助。

此外,文末整理了几篇关于 RLHF 最热门的12篇必读论文,卖萌酱打包好挂在公众号后台了,感兴趣的小伙伴可以在公众号“夕小瑶的卖萌屋”后台回复【1212】领取。

RLHF:基于人类反馈(Human Feedback)对语言模型进行强化学习【Reinforcement Learning from Human Feedback】

在过去几年里,基于prompt范式的AI生成模型取得了巨大的成功,诞生了不少有意思的AI应用,例如AI写小说,AI写代码,AI画图甚至AI做视频等。

但其实这种生成模型很难训练。以语言模型为例,大多是采用“自回归生成”的方式,通过循环解码的方式来逐字或逐词生成内容。训练时往往简单的基于上下文信息去预测下一个词,然后用交叉熵来计算每个词的loss。显然这种token-level的loss不能很好的从整体输出的层面去指导模型优化方向。

为了能刻画模型输出的整体质量(而不是单个词),人们往往用BLEU或ROUGH等评价指标来刻画模型输出与人类偏好的相近程度,但这也仅仅是在评价的层面,模型在训练的时候是见不到这些人类真实的偏好的。

因此,训练阶段,如果直接用人的偏好(或者说人的反馈)来对模型整体的输出结果计算reward或loss,显然是要比上面传统的“给定上下文,预测下一个词”的损失函数合理的多。基于这个思想,便引出了本文要讨论的对象——RLHF(Reinforcement Learning from Human Feedback):即,使用强化学习的方法,利用人类反馈信号直接优化语言模型。

抱抱脸:ChatGPT背后的算法——RLHF | 附12篇RLHF必刷论文_夕小瑶的博客-CSDN博客

从零实现ChatGPT——RLHF技术笔记 - 知乎

Illustrating Reinforcement Learning from Human Feedback (RLHF)

本文链接地址:https://www.jiuchutong.com/zhishi/299233.html 转载请保留说明!

上一篇:提取acc文件字幕的解决方案(acc字幕文件怎么转换srt字幕)

下一篇:9、Linux 高并发Web服务器项目实战(附代码下载地址)(linux 高并发网络编程)

  • 钉钉加入会议在哪里(钉钉加入会议在哪里打开)

  • 青少年监护模式怎么关(青少年监护模式怎么解除)

  • vivox50pro支持nfc功能吗(vivox50pro支持快充吗)

  • 金税盘插上电脑没反应(金税盘插上电脑上应该有什么显示)

  • 谷歌浏览器打开就崩溃怎么办(谷歌浏览器打开是2345浏览器)

  • 高德地图创始人是谁(高德地图创始人 肖军)

  • 苹果网易云歌词怎么显示在手机屏幕上(苹果网易云歌词字体大小怎么改)

  • 闲鱼可以卖虚拟商品吗(闲鱼可以卖虚拟资料吗)

  • 闲鱼拉黑名单了还能看见我的发布吗(闲鱼拉黑名单了还能下单吗)

  • 苹果热点怎样取消密码(iphone的热点怎么关)

  • 怎么强制退出talkback(怎么强制退出talkback小米)

  • 美图秀秀拼视频没声音(美图秀秀拼视频最长时间)

  • 快手怎么全屏看视频(快手怎么全屏看图)

  • qq总是被冻结怎么解决(qq老被冻结)

  • 苹果4怎么截图(苹果4怎么截图手机屏幕)

  • 手机耗电快了怎么办(手机耗电快了怎么解决)

  • 耳机放洗衣机里洗了怎么办(耳机放洗衣机里洗过后还能用吗)

  • 小米底部搜索栏怎么关闭(小米去掉底部搜索栏)

  • 苹果x有锁是什么意思(苹果x有锁机多少钱)

  • 菜鸟裹裹怎么加盟(菜鸟裹裹怎么加亲友)

  • optex是什么牌子

  • 荣耀v10怎么升级9.1(荣耀v10怎么升级系统)

  • 怎么取消hd标志(怎样取消hd标志)

  • 无法登录无线路由器设置页面(无法登陆wifi怎么登陆路由器)

  • 深度学习中模型计算量(FLOPs)和参数量(Params)的理解以及四种计算方法总结

  • 基于梵·高《向日葵》的 图像阈值处理专题(二值处理、反二值处理、截断处理、自适应处理及Otsu方法)【Python-Open_CV系列(六)】(向梵高致敬油画)

  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设 电脑维修 湖南楚通运网络