位置: IT常识 - 正文

OpenAI GPT-3模型详解(gpt3 模型大小)

编辑:rootadmin
OpenAI GPT-3模型详解 OpenAI GPT-3模型详解

推荐整理分享OpenAI GPT-3模型详解(gpt3 模型大小),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:gpt3介绍,gpt-3开源,gpt-3开源,gpt3模型结构,gpt3模型结构,gpt3模型数据集,gpt3 模型大小,gpt3 模型大小,内容如对您有帮助,希望把文章链接给更多的朋友!

针对文本生成和代码生成这两大类场景,OpenAPI分别提供了GPT-3和Codex模型,

模型描述GPT-3一组能够理解和生成自然语言的模型Codex一组可以理解和生成代码的模型,包括将自然语言转换为代码

本文将为大家详细介绍这两个模型。

文章目录模型概述GPT-3DavinciCurieBabbageAdaCodexAPI调用Python库Node.js库参数说明总结模型概述GPT-3

GPT-3模型可以理解并生成自然语言。OpenAI根据任务场景和功能强度提供了四种可选子模型。其中Davinci g功能最强大,而Ada 响应速度最快。

模型名称描述最大tokens训练数据text-davinci-003最强大的GPT-3模型。具有更高的输出质量、更长的输出内容和更好的语言理解能力。还支持文本插入功能。4,000 tokens截至2021年6月text-curie-001功能强大,但比Davinci速度更快,价格也更便宜。2,048 tokens截至2019年10月text-babbage-001能够完成简单任务,速度快,成本低。2,048 tokens截至2019年10月text-ada-001能够完成非常简单的任务,通常是GPT-3系列中速度最快的,成本最低的。2,048 tokens截至2019年10月

尽管通常来讲Davinci最强大,但其他型号的模型在某些特定场景和任务下,具有明显的速度或成本优势。例如,Curie可以执行许多与Davinci相同的任务,但速度更快,成本仅为Davinci的1/10。

建议在实验时使用Davinci,因为它产生的结果最好。一旦实验完成,建议尝试一下其他模型的效果,看看是否能以更低的延迟或成本获得同样或近似的效果。同时还可以通过在特定任务上对其他模型进行微调来提高它们的性能。

Davinci

Davinci是GPT-3系列中最强大的模型,可以在很少指引的情况下完成其他模型能完成的任何任务。对于需要大量理解内容的应用,如针对特定受众的摘要生成和创造性内容生成,Davinci的产生效果最佳好。当然,这些优势需要更多的计算资源,因此Davinci每次API调用的成本更高,而且速度也不如其他模型。

Davinci的另一个亮点是理解文本的意图。Davinci非常擅长解决各种逻辑问题,并解释其中角色的动机。Davinci已经能够解决一些涉及因果关系的最具挑战性的人工智能问题。

擅长领域:复杂意图理解、因果关系发现及理解、针对性摘要总结

Curie

Curie也非常强大,同时速度也非常快。虽然Davinci在分析复杂文本时更具优势,但Curie在情感分类和总结摘要等许多细致任务上表现出色。Curie还非常擅长回答问题,因此非常适合作通用服务聊天机器人。

擅长领域:翻译、摘要、复杂分类、文本情感

Babbage

Babbage可以执行分类等简单任务。当涉及到语义搜索时,它也可以很好地对文档与搜索查询的匹配程度进行排序。

擅长领域:文本分类、语义搜索分类

Ada

Ada通常是速度最快的模型,可以执行解析文本、地址更正和粗放的分类任务。可以通过提供更多上下文来提升Ada的表现。

擅长:文本解析、简单分类、地址更正、关键字提取

OpenAI GPT-3模型详解(gpt3 模型大小)

⚠注意:高级模型都能完成低级模型能完成的任务,例如Ada能完成的工作,Curie和Davinci都能完成。

OpenAI模型是非确定性的,这意味着相同的输入可以产生不同的输出。将temperature 设置为0将使输出大部分具有确定性,但仍可能存在少量可变性。

Codex

Codex模型是GPT-3模型的派生模型,可以理解和生成代码。训练数据包含自然语言和来自GitHub的数十亿行公共代码。

Codex最擅长Python,并精通十几种语言,包括JavaScript、Go、Perl、PHP、Ruby、Swift、TypeScript、SQL,甚至Shell。

Open AI目前提供2种子模型:

模型名称描述最大请求训练数据code-davinci-002最强大的Codex模型。特别擅长将自然语言转译成代码。除了完成代码外,还支持在代码补全。8,000 tokens截至2021年6月code-cushman-001几乎与Davinci Codex一样强大,但速度稍快。这种速度优势可使其更适合于实时应用。2,048 tokens

Codex目前尚处在公测阶段。公测期间免费调用,但是速度会受限制。推荐直接用最强的code-davinci-002。

API调用

OpenAI API调用非常简单,官方提供Python和Node.js库。

Python库

Python库可以通过下面命令安装:

$ pip install openai

安装后即可在代码中通过导入openai库来调用各功能接口

import openaiopenai.api_key = "YOUR_API_KEY"response = openai.Completion.create( model="text-davinci-003", prompt="Hello", temperature=0, max_tokens=16)

这里需要注意的是:调用接口需要先绑定OpenAI API Key。该API Key可以在OpenAI后台申请,点击右上角头像,在弹出菜单中点击”View API keys“。在API Keys管理界面可以创建或删除API Keys。

Node.js库

Node.js库的安装和使用步骤与Python库类似,在项目中运行

$ npm install openai

即可向项目中安装并添加openai库。安装完成后,即可在代码中调用

const { Configuration, OpenAIApi } = require("openai");const configuration = new Configuration({ apiKey: 'YOUR_API_KEY',});const openai = new OpenAIApi(configuration);const response = await openai.createCompletion({ model: "text-davinci-003", prompt: "Hello", temperature: 0, max_tokens: 16,});

社区提供了其他所有主流编程语言的库,大家可以根据自己使用的语言,在这里查找。

参数说明

用API的一大好处是,API提供了众多参数,可以让我们控制输出效果。下面是GPT-3和Codex模型支持的参数:

参数名类型默认值说明modelstring模型名称(详见模型综述)promptstring输入的提示suffixstringnull文本生成后在文末插入的后缀max_tokensint16文本生成时要生成的最大token数。提示的token数加上max_tokens不能超过模型的上下文长度。大多数模型的上下文长度为2048个token(最新模型支持4096 tokens)temperaturefloat1采样温度。值越高意味着模型承担的风险越大。对于需要创意的场景,可以尝试0.9,对于答案明确的场景,建议用0(argmax采样)建议不要与top_p同时改变。详见《ChatGPT模型采样算法详解》top_pfloat1核采样(温度采样的另一种方式),其中模型考虑具有top_p概率质量的token的结果。因此,0.1意味着只考虑包含最高10%概率质量的token建议不要与temperature同时改变。详见《ChatGPT模型采样算法详解》nint1每个提示要生成多少个答案streambooleanfalse是否返回流传输进度。如果设置,token将在可用时以纯数据服务器端推送事件发送,流以data:[DONE]消息终止。logprobsintnul如果传值(最大值5)则表示包括logprobs个最可能的token以及所选令牌的对数概率。例如,如果logprobs为5,则API将返回包含5个最可能Token的列表。echobooleanfalse是否回传提示stopstringnull最多4个序列,遇到stopAPI将停止生成。返回的文本不包含停止序列。presence_penaltyfloat0数值介于-2.0和2.0之间。正值将根据到目前为止新token是否出现在文本中来惩罚新token,从而增加模型谈论新主题的可能性。详见 《ChatGPT模型中的惩罚机制》frequency_penaltyfloat0数值介于-2.0和2.0之间。正值根据文本中新token已经出现的频率惩罚新token,从而降低模型逐字重复同一行的可能性。详见 《ChatGPT模型中的惩罚机制》best_ofint1在服务端生成best_of个完成,并返回“最佳”(每个token的log概率最高的一条)。结果无法流式传输。与n一起使用时,best_of控制候选回应的数量,n指定要返回的数量–best_of必须大于等于n。⚠注意:由于此参数生成许多回应,因此会快速消耗token配额。小心使用并确保对max_tokens和stop进行了合理的设置。logit_biasmapnull修改回应种出现指定token的可能性。接受一个json对象,该对象将token(由GPT tokenizer的token ID指定)映射到-100到100之间的相关偏差值。可以用 tokenizer tool 将文本转换成token ID。在数学上,在采样之前,将偏差添加到模型生成的逻辑中。每个模型的确切效果会有所不同,但介于-1和1之间的值应该会降低或增加选择的可能性;像-100或100这样的值应该会导致相关token的禁用或必现。例如,可以传递{"50256": -100}以防止生成`<userstringnull代表终端用户的唯一标识符,OpenAI用来监控和检测滥用。

理解上述参数对文本生成任务的影响至关重要。其中最重要的一组参数是temperature、top_p、presence_penalty、frequency_penalty,详见《ChatGPT模型采样算法详解》 和 《ChatGPT模型中的惩罚机制》

总结

虽然GPT-3模型没有ChatGPT强大,但使用API有如下好处:

优点

无需注册、直接使用有参数可以控制输出比ChatGPT稳定速度比ChatGPT快一点可以整合到其他系统中

缺点

生成质量不如ChatGPT有限的上下文支持会产生费用
本文链接地址:https://www.jiuchutong.com/zhishi/300351.html 转载请保留说明!

上一篇:Pytorch深度学习实战3-5:详解计算图与自动微分机(附实例)

下一篇:【Spring Boot】SpringBoot设计了哪些可拓展的机制?(spring boot s)

  • 苹果13promax机身尺寸是多大(苹果13promax机身材质)

    苹果13promax机身尺寸是多大(苹果13promax机身材质)

  • 华为隐私空间占内存的吗(华为隐私空间占用多大储存)

    华为隐私空间占内存的吗(华为隐私空间占用多大储存)

  • ssd固态硬盘读取影响寿命吗(SSD固态硬盘读取与写入)

    ssd固态硬盘读取影响寿命吗(SSD固态硬盘读取与写入)

  • 小米的隐藏应用在哪里(小米的隐藏应用怎么没了)

    小米的隐藏应用在哪里(小米的隐藏应用怎么没了)

  • 描述性文件删除不了怎么办(描述性文件删除不掉)

    描述性文件删除不了怎么办(描述性文件删除不掉)

  • 底部任务栏不显示(任务栏底部不显示打开的窗口)

    底部任务栏不显示(任务栏底部不显示打开的窗口)

  • mt6737相当于骁龙多少(mtk6737t相当于骁龙多少)

    mt6737相当于骁龙多少(mtk6737t相当于骁龙多少)

  • 手机里的东西怎么传到另一个手机(手机里的东西怎么传到u盘)

    手机里的东西怎么传到另一个手机(手机里的东西怎么传到u盘)

  • boss直聘注销后还能用吗(boss直聘注销后,对方还能看到自己吗)

    boss直聘注销后还能用吗(boss直聘注销后,对方还能看到自己吗)

  • 360路由器c403是千兆的吗(360安全路由器c403的参数)

    360路由器c403是千兆的吗(360安全路由器c403的参数)

  • tft屏幕和ips屏幕区别(tft屏幕和ips屏幕哪个好)

    tft屏幕和ips屏幕区别(tft屏幕和ips屏幕哪个好)

  • u盘上删除的文件可以从回收站恢复吗(U盘上删除的文件)

    u盘上删除的文件可以从回收站恢复吗(U盘上删除的文件)

  • VR是什么意思(vr是什么意思呀)

    VR是什么意思(vr是什么意思呀)

  • word页面怎么排序(word页面排版)

    word页面怎么排序(word页面排版)

  • vue怎么放慢速度(vue慢动作怎么操作)

    vue怎么放慢速度(vue慢动作怎么操作)

  • 手机如何清除上网记录(手机如何清除上面的图标)

    手机如何清除上网记录(手机如何清除上面的图标)

  • 微信一方删除了另一方还显示吗(微信一方删除了再加好友要验证吗?)

    微信一方删除了另一方还显示吗(微信一方删除了再加好友要验证吗?)

  • x21上市时间(x21a上市时间)

    x21上市时间(x21a上市时间)

  • mt122ch/a是什么型号({

    mt122ch/a是什么型号({"ch":"mt122m"})

  • word怎么设置纸型为信纸(word怎么设置纸型)

    word怎么设置纸型为信纸(word怎么设置纸型)

  • 数捷显示器是品牌吗(数捷显示器32寸说明书)

    数捷显示器是品牌吗(数捷显示器32寸说明书)

  • 微信发的文件怎么撤回(微信发的文件怎么打印出来)

    微信发的文件怎么撤回(微信发的文件怎么打印出来)

  • p20像素是多少(华为p20像素多少)

    p20像素是多少(华为p20像素多少)

  • 微博怎么发红包(微博怎么发红包给粉丝)

    微博怎么发红包(微博怎么发红包给粉丝)

  • win11怎么添加字体?win11添加字体教程(win11怎么添加字体到个性化)

    win11怎么添加字体?win11添加字体教程(win11怎么添加字体到个性化)

  • 减免增值税如何结转
  • 土地增值税要计增值税吗
  • 监理公司成本核算方法
  • 承兑汇票私人贴现要多久
  • 贸易公司经营范围有限制吗
  • 出纳可以做库存库吗
  • 备用金每个月可以用几次
  • 投资款返还案例
  • 去年发生的成本怎么算
  • 增值税普通发票几个点
  • 现金短缺溢余求借多少短期借款?
  • 人力资源公司劳务派遣怎么收费
  • 购买沙子违法吗
  • 利润表中列报项目
  • 现金收取业务办理流程
  • 税金及附加包括所得税费用吗
  • 四季度企业所得税怎么报
  • 财税[2010]121号中的宗地容积率指的是什么?
  • 小规模纳税人和一般纳税人哪个好
  • 个人借款给公司借条怎么写
  • 机动车发票认证了的发票怎么红冲
  • 票开了但是没有发票
  • 外企企业所得税怎么计算
  • 公司员工餐费会计分录
  • 公司仓库调拔结算会计分录.
  • 发票冲红有时间要求吗
  • 查找我的iphone怎么添加设备
  • 全部投资内部收益率
  • 清卡处于非征期是什么意思
  • 合作社实际没有自产自销,但税务方面怎么可以提供证明
  • 入库的原材料属于什么科目
  • 出租车车票可以出卖吗
  • win7系统安装包多大
  • PHP:pcntl_sigprocmask()的用法_PCNTL函数
  • 应付账款会计分离
  • php 文件上传类型限制
  • 个人所得税部分缴纳
  • php使用什么开发工具
  • 农业公司经营项目有哪些?
  • 小规模单位没交五险一金
  • jqueryfor
  • Vite4+Pinia2+vue-router4+ElmentPlus搭建Vue3项目(组件、图标等按需引入)[保姆级]
  • 日常费用报销表格
  • 百度ai修复照片
  • 辅助核算内容不完整
  • 疫情期间减免的养老保险算工龄吗
  • 个人对企事业单位的看法
  • 应交税费未交增值税借方表示什么
  • 贴现费用分录
  • 残保金超比例奖励政策
  • 联营公司是关联方吗
  • 酒店会计做账流程
  • mysql登录失败处理
  • linux配置mysql数据库远程连接失败的解决方法
  • win7 64位系统插入磁盘提示“将磁盘插入驱动器”的解决方法
  • win8安装程序在哪里
  • 强化廉洁意识 筑牢思想防线
  • 笔记本带u
  • 2t硬盘如何分区最合理
  • 如何关闭windows防火墙
  • linux常用命令chown
  • 系统技巧 制作流程
  • win8系统找不到wifi
  • 360tray占用大量内存
  • linux文件权限的设置与修改
  • win10声卡驱动正常但没声音怎么解决
  • 在linux操作系统中,/etc/rc.d/init.d
  • opengl glu
  • jquery操作数组
  • retrofit提交表单
  • python读配置文件配置信息
  • 批处理禁用计算机
  • 微信jssdk vue
  • koa2 koa
  • js中push和pop
  • Android-Canvas.drawText()详解
  • JavaScript中void(0)的具体含义解释
  • python操作db2数据库
  • 简述python语言
  • 收回闲置土地使用权案例
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设