位置: IT常识 - 正文

【跟李牧学AI】 ChatGPT是什么？--先看看InstructGPT(李牧其人)

编辑：rootadmin

【跟李牧学AI】 ChatGPT是什么？--先看看InstructGPT

推荐整理分享【跟李牧学AI】 ChatGPT是什么？--先看看InstructGPT(李牧其人)，希望有所帮助，仅作参考，欢迎阅读内容。

文章相关热门搜索词:李牧其人,诗人李牧,李牧的视频,李牧的视频,李牧的视频,李牧自学,李牧的故事告诉了我们什么,李牧的故事告诉了我们什么,内容如对您有帮助，希望把文章链接给更多的朋友！

最近OpenAI公司的ChatGPT非常火爆，虽然正式的论文还没有发布，但是按照OpenAI一贯的工作思路，基于前期工作进行相应的改造，我们可以跟着沐神一起来看看InstructGPT，也算法对了解ChatGPT有个前期的知识储备。

instructGPT论文地址：

Training language models to follow instructions with human feedback

沐神视频链接：InstructGPT 论文精读【论文精读·48】

目录

摘要

介绍

数据集

模型

1）SFT

2）RM

RM损失函数

3）Reinforcement learning（RL）

RL损失函数

摘要

大型的语言模型效果虽然很好，但是会产生很多对用户不真实的，带有种族歧视的，甚至是有害的言论。而InstructGPT则是基于GPT3，在人工反馈的数据上训练了一版有监督的模型。效果是：1.3B 参数的 InstructGPT优于175B 参数的GPT-3，可以证明，通过人工反馈进行fine-tune是个有前景的方向。

介绍

instructGPT是如何工作的呢？

step1:

挑一些prompt，让标注者写答案，基于这部分数据使用GPT-3进行fine-tune，得到模型SFT（supervised fine-tune）

step2:

第一步可以得到一个还不错的模型，但是成本高，也无法穷尽所有答案，所以第二步则是由SFT模型对问题采样出几个答案（GPT-3得到词的概率，再通过beam search采样出4个答案），再由人工判断这几个答案的优劣，然后训练出一个奖励模型RM（reward model）

step3:

使用强化学习的框架优化得到输出的策略：使用RM模型计算reward，并用PPO（后面会讲）来更新策略。

数据集

那么prompt是如何生成的呢？

1/Plain 让标注人员自己想---确保问题的多样性

2/Few-shot 让标注人员写指令，以及指令的答案。比如找出这段代码的错误。

3/User-based 标注人员根据用户让OpenAI回答的问题构建一部分prompt

用户问题分布：

基于这些数据，划分成了3个数据集：

1/ SFT，标注人员直接写答案，13k样本，API+人工标注

2/ RM，标注人员打分，33k样本，API+人工标注

【跟李牧学AI】 ChatGPT是什么？--先看看InstructGPT(李牧其人)

3/PPO，31k样本，只有API的结果

然后开放在OpenAI的playground中，让用户使用，再根据用户ID收集一部分的问题（一个用户最多200个）。用户可能会针对一个问题，用不同的句子提问，所以根据用户ID划分不同的数据集，避免一个用户的问题同时出现在多个数据集中，污染结果。

这样就可以持续对模型进行迭代。

模型

InstructGPT中一共用到了3个模型

1）SFT

SET的训练比较简单，就是标注数据fine-tune，13k样本较少，结果会过拟合，但这个模型只是为了初始化后面的模型，后续发现过拟合反而对后续的训练反而是有帮助的。

2）RM

的话，输入是prompt和回答，输出是一个reward。用前面的SFT的模型，去除掉最后的softmax层，转而使用一个线性投影层得到一个输出为1的标量，这个标量就可以视作是RM中的reward。

RM损失函数

是一个比较常见的pair-wise ranking loss。

这里的K取的是9，每个prompt产出9个回答，9个回答两两匹配中生成36个pair对，在损失函数中，第一项的分母中除以pair对数，为了就是平衡掉不同K值带来的影响。

注意：OpenAI之前的工作中用的K=4，这里用的是K=9，好处有：

标注资源增长较少

对于同一个问题，标注9个答案仅仅比4个多出了一些时间，因为节约了读题和理解题目的时间（我不是很认可啊，排序我觉得还挺麻烦的）

6倍的训练数据

9个答案能产生36个pair对，而4个答案却只能产生6个pair对，训练数据量增加了6倍。

节约时间

最费时间的是的计算，9个回答只需要计算9次，但是能产出36个标量，相当于节省了4倍的时间。

相当于是标注资源增加不多的情况下，训练数据量变多，同时时间没有增加很多。

同时，前作是4个里面选最好的一个，会有过拟合的情况，这里改为全排序的话，帮助缓解过拟合。

3）Reinforcement learning（RL）

在强化学习的框架内，随着模型的更新，每次采样到的y是不一样的，相当于是强化学习的环境变了，那相应的，获得的奖励也变了。

RL损失函数

就是强化学习学到的结果

就是SFT学习到的结果

第一项：对于每个prompt，丢进RL模型中产生一个y，使用第二步的RM模型来计算，这里的RM模型是模拟人类，对每个y给出一个实时反馈。

第二项：而RM训练时产生的y是来自于，为了减小更新模型导致的数据分布不一致，所以第二项中使用了KL散度，使得模型学出来的结果和SFT的不要相差太多

最后一项：GPT-3原始的目标函数，使得整个模型能生成更有效回答的情况下，其他任务的性能不要下降太多。

前2项就是ppo模型，加上最后一项就是ppo-ptx模型。

沐神给了些其他建议：

1.大模型模型不稳定的话，使用小模型

2.与其使用不稳定的RL，不如在数据集上多下点功夫，多找人标注些数据集，效果也未必不好。

（ps：论文中间还提到了如何挑选标注人员，这个真的蛮重要的，低质的标注人员真的非常拖累整个项目进程。。。这个还有专门的论文讲这个事情，感兴趣的可以自己搜搜看）

本文链接地址:https://www.jiuchutong.com/zhishi/298514.html 转载请保留说明！

上一篇：idea如何导入jar包(idea如何导入sql文件)

下一篇：Meta最新模型LLaMA细节与代码详解(meta最新模型)

相关产品

随机推荐

怎么做微信营销来获取客户的信任，微信营销实战方法(如何做微信营销)

怎么做微信营销来获取客户的信任，微信营销实战方法(如何做微信营销)

微信能发消息,不能视频聊天(微信能发消息但是转账显示非好友)

微信能发消息,不能视频聊天(微信能发消息但是转账显示非好友)

新手第一次如何拍抖音(新手第一次如何打桌球)

新手第一次如何拍抖音(新手第一次如何打桌球)

n卡安装程序失败(n卡安装程序失败重启黑屏了)

n卡安装程序失败(n卡安装程序失败重启黑屏了)

怎么强制清除小米账号(怎么强制清除小程序内容)

怎么强制清除小米账号(怎么强制清除小程序内容)

微信红包怎么指定人抢(微信红包怎么指定一个人领)

微信红包怎么指定人抢(微信红包怎么指定一个人领)

怎么把安卓手机的照片导入苹果手机(怎么把安卓手机照片导入电脑)

怎么把安卓手机的照片导入苹果手机(怎么把安卓手机照片导入电脑)

随手记同步失败是为什么(随手记同步后之前数据不见了)

随手记同步失败是为什么(随手记同步后之前数据不见了)

充会员能恢复几个火花(充会员能恢复几次信誉)

充会员能恢复几个火花(充会员能恢复几次信誉)

soul性别换不回来了(soul性别改不回来)

soul性别换不回来了(soul性别改不回来)

为什么airdrop搜不到(为什么airdrop搜不到我)

为什么airdrop搜不到(为什么airdrop搜不到我)

苹果11软件闪退(苹果闪退怎么解决)

苹果11软件闪退(苹果闪退怎么解决)

电脑进不了pe系统是什么原因(电脑进不了pe系统一直转圈)

电脑进不了pe系统是什么原因(电脑进不了pe系统一直转圈)

淘宝怎么设置刷脸支付(淘宝怎么设置刷脸进入)

淘宝怎么设置刷脸支付(淘宝怎么设置刷脸进入)

快手怎么看发布具体时间(快手怎么看发布时间和地点)

快手怎么看发布具体时间(快手怎么看发布时间和地点)

小米4可以使用悬浮球吗(小米可以使用华为手表吗)

小米4可以使用悬浮球吗(小米可以使用华为手表吗)

icloud内存满了怎么删(icloud内存满了怎么看照片)

icloud内存满了怎么删(icloud内存满了怎么看照片)

小米手环4nfc门禁卡怎么用(小米手环4nfc门禁卡开不了门)

小米手环4nfc门禁卡怎么用(小米手环4nfc门禁卡开不了门)

公众平台修改登录邮箱方法(公众号修改登录密码怎么修改)

公众平台修改登录邮箱方法(公众号修改登录密码怎么修改)

苹果手机和华为手机蓝牙怎么传送(苹果手机和华为手机哪个好)

苹果手机和华为手机蓝牙怎么传送(苹果手机和华为手机哪个好)

华为p20和p30对比(华为p20p30对比参数)

华为p20和p30对比(华为p20p30对比参数)

qq密码忘了没有手机号(qq密码忘了没有好友辅助怎么办)

qq密码忘了没有手机号(qq密码忘了没有好友辅助怎么办)

标签

购买办公用品合同模板免费

小规模纳税人有增值税吗

城市维护建设税怎么做分录

股东个人财产转让协议

一般纳税人缴纳增值税会计科目

金税四期一般纳税人应对

银行转账支付计入什么科目

出售自用汽车的税率

小规模不报税会怎么样

2019印花税减免

工程实际成本核算例题

可以采用三栏式的明细账的有

股权转让金是什么意思

旧货如何卖

公司搞活动的话术

营改增后利息收入交什么税

什么是红字信息表编号

异地预缴本地申报流程

建筑工程预收款预缴增值税的时间

避税和不避税怎么选

增值税申报表附表二填表说明

季报小微企业不包括哪些

以前年度损益调整属于哪类科目

win10指纹传感器在哪里

macos 关闭屏幕

衍生金融资产属于投资性资产吗

向非绑定账户转账超限是什么意思

windows11怎么设置ipv4地址

公司租的宿舍记什么科目

无偿赠送产品如何处理

以前年度应交税费调整

win11桌面右键失效

研发费用加计扣除是什么意思啊

固定资产账面价值是什么意思

PHP:pg_close()的用法_PostgreSQL函数

macOS Big Sur 11.1正式版更新了什么?macOS Big Sur 11.1正式版更新

Win11 Build22000.346 Beta/Release预览版发布 KB5007262更新汇总

建筑工程甲级什么意思

laravel框架中文手册

会计等式反映了六大会计要素的恒等关系

php源码封装

企业对外投资资产的成本可以税前扣除吗

离职补偿金可以拖欠么

opengl开发图形界面

织梦系统网站搭建教程

python中默认值参数

企业发生的广告费应计入

sqlserver 通用存储过程分页代码(附使用ROW_NUMBER()和不使用ROW_NUMBER()两种情况性能分析)

应付账款的账务处理

小规模纳税人场地租赁发票税率是多少

土地增值税要计入税金及附加吗

工作失误扣工资

漏缴增值税处罚规定

投标费用如何入账科目

加盟费开发票

厂家核销费用直接扣除吗

公司车子折旧相差多少

在建工程转长期待摊费用是什么意思

企业存货计价方法发生变更案例

贴现收到票据时会计分录

酒店收取餐具费合法吗

mysql里面的事务

通过注册表修改office默认字体

win10纯净系统安装教程

硬盘已经安装系统文件夹

win8桌面不显示

linux扩充inode

python中文分词库

python算法简单编程题

jqgrid getrowdata

unity简单项目

编写高质量代码改善JAVA程序的151个建议

javascript 日期

烟草局收入怎么样

云南地方税务局电话

发票打印机设备设置

地方税收包含哪些

分国分项抵免法

免责声明：网站部分图片文字素材来源于网络，如有侵权，请及时告知，我们会第一时间删除，谢谢！邮箱：opceo@qq.com

鄂ICP备2023003026号

网站地图：企业信息工商信息财税知识网络常识编程技术

友情链接：武汉网站建设