位置: IT常识 - 正文

生成式 AI 分析:大模型 + 大量数据的神奇效果(ai形成生成器工具怎么用)

编辑:rootadmin
原力计划生成式 AI 分析:大模型 + 大量数据的神奇效果 前言

推荐整理分享生成式 AI 分析:大模型 + 大量数据的神奇效果(ai形成生成器工具怎么用),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:生成.a,ai形成生成器工具怎么用,生成式方法,ai生成模型,基于ai的生成器,生成式方法,基于ai的生成器,ai生成技术,内容如对您有帮助,希望把文章链接给更多的朋友!

如果你对这篇文章感兴趣,可以点击「【访客必读 - 指引页】一文囊括主页内所有高质量博客」,查看完整博客分类与对应链接。

大模型的涌现能力 (Emergent Ability)

下图是模型性能(Loss for next token prediction)与「参数量」和「数据集大小」之间的关系,可以看出随着「参数量」和「数据集大小」不断变大,模型性能不断增强,仿佛不会遇到瓶颈。

下图展现了大模型的涌现能力,即语言模型的性能随着参数量增加并不是线性关系,而是突然跃升,即涌现。在未达到门槛之前,性能一直在随机的水平徘徊。

Calibration

在上面的实验图中,Calibration 指「模型置信度」与「真实概率」之间的关系,即满足「置信度高 -> 正确」、「置信度低 -> 可能错误」的模型,其 Calibration 指标越好。

因此 Calibration 实际上对应着「模型是否知道自己错了」这件事,如下图所示,不同参数量的模型对应不同的颜色,可以看到模型越大,其对自己是否出错的把握越大,即「模型置信度」与「真实概率」更为贴合。

Inverse Scaling Prize

一个比赛,奖金悬赏,寻找能让「模型越大,性能越差」的任务。

在这个比赛的任务中,许多之前的 “大模型” 随着参数量变大,其性能确实变差了,但当拿出更大的模型之后,其性能又好了起来,并产生了一段 U 型曲线。

这个比赛中的任务,一般都是「具体误导性的」,例如下述这个例子:

因此对于上述这种 U 型曲线,一种猜测是:这些任务里通常包含着一些误导任务,例如上述的 5 元,当模型还没有很大的时候,由于一知半解,就会接受被误导的方法,进而使其比随机效果还要差,但当其变得足够大时,就会得到真正的结果,类似于上述的计算期望值。

Switch Transformer生成式 AI 分析:大模型 + 大量数据的神奇效果(ai形成生成器工具怎么用)

Switch Transformer 模型参数量为 1.6T(GPT-3 为 1750 亿,GPT-3.5 为 2000 亿),其使用了 Mixture-of-expert 的结构,即在模型推断(Inference)的时候,选取不同的 Module,进而加快推断速度。

大数据的重要性

足够大量的数据才能让模型学会「常识,即世界知识」,如下图所示,横坐标为数据量。 数据集准备过程:

过滤有害内容(google 安全搜索)去除 HTML 标签用规则去除低品质数据去除重复数据过滤出测试集(例如 GPT-3 就未过滤出测试集)

「大模型」还是「大数据」

在固定的运算资源时,应该优先「大模型」还是「大数据」?看目前的趋势,模型大小越来越大,但训练数据量并没有明显变化。

根据下图(颜色代表固定的运算资源,横坐标为参数量,参数量越大,数据量越小),可以发现「大模型」和「大数据」需要取得平衡,只增加模型大小,不增加算力,只会让训练结果变得更差。

每个 U 型曲线取一个最低点,得到下图所示的算力与参数量(Parameters)和数据量(Tokens)之间的关系。

根据上述估计图,Google 重新估计了 Gopher(参数量为 280 Billion,数据量为 300 Billion) 对应的算力下,应该采取的参数量和数据量方案,于是训练得到了 Chinchilla(参数量为 63 Billon,数据量为 1.4 Trillion)。对比之后,发现 Chinchilla 大胜 Gopher。

根据上述结果,进一步给出了具体的「参数量」与「数据量」之间的关系:

最新的 LLaMA 也采用了这种「减少参数量,扩大数据量」的方案:

KNN LM

通常来说,语言模型在做一个分类问题,即输入为「清华大」,输出为各个候选词的概率,随后选出概率最高的词即可。

如下所示,Transformer 得到 Text 的 Embedding,随后通过线性层 + softmax 转换为分类问题。 与之对比,KNN LM 在得到 Repesentation 后,不仅训练了一个分类器,还将测试 Text 的 Repesentation 与训练数据得到的 Repesentation 进行距离计算,并根据距离得到下一个词的预测概率,再与原始分类器结合起来,得到最终结果。

另外,KNN LM 可以拿任意资料与测试 Text 的 Representation 计算距离,并不局限于训练数据。因此 KNN LM 这种机制可以使模型训练时更专注于一些难度更高的问题,对于一些仅需记忆的问题则可以通过这种方式解决。

参考资料Hung-yi Lee:生成式 AI(一)Scaling Laws for Neural Language ModelsEmergent Abilities of Large Language ModelsInverse scaling can become U-shapedSwitch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient SparsityWhen Do You Need Billions of Words of Pretraining Data?Scaling Language Models: Methods, Analysis & Insights from Training GopherDeduplicating Training Data Makes Language Models BetterTraining Compute-Optimal Large Language ModelsScaling Instruction-Finetuned Language ModelsIntroduction of ChatGPTTraining language models to follow instructions with human feedbackLearning to summarize from human feedbackGgeneralization Through Memorization: Nearest Neighbor Language ModelsLanguage Is Not All You Need: Aligning Perception with Language Models
本文链接地址:https://www.jiuchutong.com/zhishi/299778.html 转载请保留说明!

上一篇:ChatGPT频频发疯!马斯克警告:AI将毁灭人类

下一篇:Jquery 选择兄弟节点(jquery 兄弟选择器)

  • 网易云赠送的会员同一个人只能送一次吗(网易云赠送的会员不领会退吗)

    网易云赠送的会员同一个人只能送一次吗(网易云赠送的会员不领会退吗)

  • 冬残奥会项目有哪些(冬季残奥会比赛项目共分几个大项)

    冬残奥会项目有哪些(冬季残奥会比赛项目共分几个大项)

  • 2021微信退群别人能看到吗(微信退群其它人能看到吗)

    2021微信退群别人能看到吗(微信退群其它人能看到吗)

  • 为什么华为手机搜不到5gwifi(为什么华为手机突然黑屏然后按开机键都不显示)

    为什么华为手机搜不到5gwifi(为什么华为手机突然黑屏然后按开机键都不显示)

  • 用微信登录探探会不会被好友知道(用微信登录探探号安全吗)

    用微信登录探探会不会被好友知道(用微信登录探探号安全吗)

  • 三星s10多少瓦快充(三星s10支持多大功率快充)

    三星s10多少瓦快充(三星s10支持多大功率快充)

  • 荣耀9x为什么不建议购买(荣耀9x为什么不能用超级终端)

    荣耀9x为什么不建议购买(荣耀9x为什么不能用超级终端)

  • mate30pro如何关闭程序(mate30pro如何关闭悬浮按钮)

    mate30pro如何关闭程序(mate30pro如何关闭悬浮按钮)

  • 设备锁会影响qq关联吗(qq有设备锁会被盗号吗)

    设备锁会影响qq关联吗(qq有设备锁会被盗号吗)

  • 微信漏收消息原因(微信遗漏消息)

    微信漏收消息原因(微信遗漏消息)

  • 取消拉黑后能收到之前的短信吗(取消拉黑后能收到之前的微信吗)

    取消拉黑后能收到之前的短信吗(取消拉黑后能收到之前的微信吗)

  • tx和rx哪个是发送和接收

    tx和rx哪个是发送和接收

  • 小米手机进水了屏幕失灵怎么办(小米手机进水了怎么办)

    小米手机进水了屏幕失灵怎么办(小米手机进水了怎么办)

  • word视图类型及应用简答(word视图类型有哪几种)

    word视图类型及应用简答(word视图类型有哪几种)

  • 手机如何进入工程模式(手机如何进入工程模式的方法)

    手机如何进入工程模式(手机如何进入工程模式的方法)

  • 手机qq怎么设置密码锁(手机qq怎么设置在线状态)

    手机qq怎么设置密码锁(手机qq怎么设置在线状态)

  • 华为mate305G版支持双系统吗(华为mate30支持5gsa吗)

    华为mate305G版支持双系统吗(华为mate30支持5gsa吗)

  • 淘宝怎么删自己的差评(淘宝怎么删自己的评论)

    淘宝怎么删自己的差评(淘宝怎么删自己的评论)

  • 怎么关闭荣耀20应用推荐(怎么关闭荣耀手机小窗口模式)

    怎么关闭荣耀20应用推荐(怎么关闭荣耀手机小窗口模式)

  • 扰码和手机串号是哪个(扰码和手机串号有关系吗)

    扰码和手机串号是哪个(扰码和手机串号有关系吗)

  • 磁吸数据线毁坏手机吗(磁吸数据线头还能拔出来吗)

    磁吸数据线毁坏手机吗(磁吸数据线头还能拔出来吗)

  • 闪送如何接单(闪送怎么接单快点)

    闪送如何接单(闪送怎么接单快点)

  • 流量速度慢怎么解决(流量速度慢怎么提速)

    流量速度慢怎么解决(流量速度慢怎么提速)

  • 软件产品即征即退条件
  • 企业增值税是什么科目
  • 建筑业老项目如何界定
  • 小规模纳税人增值税优惠政策
  • 买车哪些费用不该交
  • 普票也要盖发票专用章吗
  • 办公费专票怎么做账
  • 已抵扣发票冲红会计分录
  • 押金收不回来没钱怎么办
  • 企业缴纳增值税后还需缴纳所得税吗
  • 资产减值损失跟信用减值损失能合并
  • 逾期不缴纳税款责令限改期限内改正的
  • 跨年度借款利息的税务处理怎么做?
  • 进货方的现金折扣怎么处理?
  • 合同副本和正本区别
  • 理财产品 会计分录
  • 企业所得税征收标准2023
  • 营改增之前有增值税吗
  • 发票上面税率地方为*号代表什么
  • 职业年金属于应交税费吗
  • 学校维修维护费包括哪些
  • 购买现金支票的扣费方式
  • 建筑公司异地预缴增值税
  • 遇到境外网络勒索敲诈怎么办
  • 挂靠车辆可以抵扣进项税么?
  • 工会经费的计税依据包括劳务费吗
  • 预计负债是什么原则
  • macbook显示隐藏文件
  • 上月开的发票会计漏做帐本月应如何补做账?
  • 增值税税控系统折旧
  • 使用mac什么意思
  • 退货 会计
  • 增值税征税范围中的货物包括
  • layui 日期控件赋值
  • 货款退回账务处理方法
  • vite vuex
  • php生成压缩包
  • python爬虫入门教程
  • 下脚料收入计入什么科目
  • 研发费用属于什么会计科目
  • 织梦商城
  • 企业所得税的营业收入包括营业外收入吗
  • 材料成本差异的超支与节约
  • 小规模季度交税分录怎么做
  • 工程施工企业转账手续费计入什么会计科目
  • mysql select语句操作实例
  • 工会活动个人奖励标准
  • 银行本票与银行汇票的区别之一是
  • 房地产会计分录怎么做
  • 出口货物退免税的管理规定
  • 劳务费用如何做账
  • 个体户是否要做账务处理
  • 病假补贴需要什么手续
  • 机械租赁公司需要什么证件
  • 一般纳税人购买汽车会计分录
  • 报销单可以当记账凭证吗
  • centos6.10安装
  • windowsxp桌面文件在哪个文件夹
  • xp无法创建目录或文件
  • vista技巧:更改电源默认按钮为关机
  • win2003回收站
  • win7任务管理器怎么打开
  • win10开机系统选择设置
  • nmeo.exe是什么
  • pdoors.exe
  • myeclipse创建
  • 批处理文件.bat
  • css制作动画
  • unity打包package
  • js获取对象key的方式有哪些
  • r+python
  • Android Studio:adb not responding
  • jquery如何做登录
  • 税务局分类分级
  • 国家税务总局2012年20号公告
  • 税务局怎么添加税种
  • 国家税务总局石棉县税务局
  • 国家医保平台查不到住院记录
  • 深圳企业公积金更改代扣银行
  • 香水与香精有啥不一样
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设