位置: IT常识 - 正文

Transformer 中的mask(transformer add norm)

编辑:rootadmin
Transformer 中的mask

简单聊聊transformer里的mask ——转载自链接一

推荐整理分享Transformer 中的mask(transformer add norm),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:transformer add norm,transformer add norm,transforming mars,transformer masked,transformer中的mask,transformer中的mask矩阵,transformer中的mask矩阵,transformer中的mask机制有什么作用,内容如对您有帮助,希望把文章链接给更多的朋友!

1.padding mask

在encoder和decoder两个模块里都有padding mask,位置是在softmax之前,为什么要使用padding mask,是因为由于encoder和decoder两个模块都会有各自相应的输入,但是输入的句子长度是不一样的,计算attention score会出现偏差,为了保证句子的长度一样所以需要进行填充,但是用0填充的位置的信息是完全没有意义的(多余的),经过softmax操作也会有对应的输出,会影响全局概率值,因此我们希望这个位置不参与后期的反向传播过程。以此避免最后影响模型自身的效果,既在训练时将补全的位置给Mask掉,也就是在这些位置上补一些无穷小(负无穷)的值,经过softmax操作,这些值就成了0,就不在影响全局概率的预测。

pytorch nn.Transformer的mask理解 - 知乎 (zhihu.com) //padding mask 讲得比较细

2.Sequence MASK

sequence MASK是只存在decoder的第一个mutil_head_self_attention里,为什么这样做?是因为在测试验证阶段,模型并不知道当前时刻的输入和未来时刻的单词信息。也就是对于一个序列中的第i个token解码的时候只能够依靠i时刻之前(包括i)的的输出,而不能依赖于i时刻之后的输出。因此我们要采取一个遮盖的方法(Mask)使得其在计算self-attention的时候只用i个时刻之前的token进行计算。

举例:“我爱中国共产党”,假如要预测“中”这个词,那么当前时刻的输入就是“我”以及“爱”的输入的叠加,一部分来自"我“的信息输出,一部分来自”爱”的信息输出,如果没有mask将后面的单词信息遮住,那么后面的单词对要预测的这个字“中”也会有相应的信息贡献,在训练的时候整个句子的前后字词的位置是已知的,所以不遮挡模型也是可以运行的,因为本身模型输入时就已经知道了句子的整个信息(也就是ground truth embeding)。 但是在进行模型预测(测试新的输入句子)时,输入的句子是未知的,随机的,模型不知道句子的信息,只能通过上一层的输出和原始的输入知道要预测字的前一个信息,进而依次预测后面的字的信息。这就造成了在训练时模型多训练了“中”后面的词,增加了训练时间,消耗了本没必要的空间及时间。在一开始训练时就mask掉,节省时间的同时也降低了过拟合的风险,提高了模型泛化能力。浅析Transformer训练时并行问题 - 知乎 (zhihu.com)

Transformer 中的mask(transformer add norm)

 //Sequence mask 讲得比较细

【Pytorch】Transformer中的mask ——转载自链接三由于Transformer的模型结构,在应用Transformer的时候需要添加mask来实现一些功能。如Encdoer中需要输入定长序列而padding,可以加入mask剔除padding部分如Decoder中为了实现并行而输入完整序列,需要加上mask剔除不应感知到的部分序列在一些更灵活的应用中,有时候需要设计一些mask形式来调整可利用信息源的范围。因此,本文以官网Transformer做文本翻译为例***官网翻译示例,梳理一下Pytorch实现的Transformer是如何做mask操作的。(164条消息) Transformer的矩阵维度分析和Mask详解_我最怜君中宵舞的博客-CSDN博客_transformer中的mask//讲清楚了训练可以并行,推理和测试的时候不能并行的原因

简单层面讲了TransformerDecoder进行并行

(165条消息) Transformer decoder中masked attention的理解_寺里LZS的博客-CSDN博客 

参考资料

简单聊聊transformer里的mask - 知乎 (zhihu.com)//大白话,讲的很好

(167条消息) Transformer 中的mask_Caleb_L的博客-CSDN博客_transformer中的mask

【Pytorch】Transformer中的mask - 知乎 (zhihu.com) //结合Pytorch代码解释,梳理一下Pytorch实现的Transformer是如何做mask操作的。

这个视频与这篇博客配套使用,讲的很清楚了

全网最详细Transformer中的mask操作及代码详解【推荐】【系列10-4-2】_哔哩哔哩_bilibili

transformer 中的 mask 操作-范仁义-读书编程笔记 (fanrenyi.com)//需要科学上网maybe

本文链接地址:https://www.jiuchutong.com/zhishi/298418.html 转载请保留说明!

上一篇:IDEA如何完美配置Servlet(适用于IDEA 2022及以下版本)(idea配置meaven)

下一篇:超参数调优框架optuna(可配合pytorch)(超参数设置)

  • 三年站长网站推广的一些经历(站长工具sangaokeji)

    三年站长网站推广的一些经历(站长工具sangaokeji)

  • 初学游戏试玩过程中需要注意哪些问题(游戏初学者玩哪个游戏比较合适)

    初学游戏试玩过程中需要注意哪些问题(游戏初学者玩哪个游戏比较合适)

  • 无线网设置入口(网络管理系统)

    无线网设置入口(网络管理系统)

  • 小米10至尊纪念版没有耳机孔吗(小米10至尊纪念版换电池)

    小米10至尊纪念版没有耳机孔吗(小米10至尊纪念版换电池)

  • play4tpro有陀螺仪吗(华为play有陀螺仪吗)

    play4tpro有陀螺仪吗(华为play有陀螺仪吗)

  • 微信是属于马化腾的吗(微信属于马化腾么)

    微信是属于马化腾的吗(微信属于马化腾么)

  • iphone11呼叫转移设置不了(iphone11呼叫转移怎么关掉)

    iphone11呼叫转移设置不了(iphone11呼叫转移怎么关掉)

  • 为什么自拍很模糊(为什么自拍很模糊不清)

    为什么自拍很模糊(为什么自拍很模糊不清)

  • 该号码暂不提供服务啥意思(您的号码不具备办理什么意思)

    该号码暂不提供服务啥意思(您的号码不具备办理什么意思)

  • ipad充满电能用多久(ipad充满电能用三个四个小时正常吗)

    ipad充满电能用多久(ipad充满电能用三个四个小时正常吗)

  • 怎么删除群聊(群主怎么删除群聊)

    怎么删除群聊(群主怎么删除群聊)

  • 苹果换第三方电池还有快充吗(苹果换第三方电池好还是换电芯好)

    苹果换第三方电池还有快充吗(苹果换第三方电池好还是换电芯好)

  • 陌生人隔空投送会盗取隐私吗(陌生人隔空投送还能找回是谁吗)

    陌生人隔空投送会盗取隐私吗(陌生人隔空投送还能找回是谁吗)

  • 腾讯视频vip有什么用(腾讯视频VIP有什么好看的剧)

    腾讯视频vip有什么用(腾讯视频VIP有什么好看的剧)

  • 苹果6sp是什么屏幕(6sp是什么屏幕)

    苹果6sp是什么屏幕(6sp是什么屏幕)

  • 探探资料审核要多久(探探资料审核要多久时间)

    探探资料审核要多久(探探资料审核要多久时间)

  • word怎么文字上标(word怎么文字上移)

    word怎么文字上标(word怎么文字上移)

  • 数据中心是指什么(数据中心是指什么意思)

    数据中心是指什么(数据中心是指什么意思)

  • 手机怎么查网络ip地址(安卓手机怎么查网络)

    手机怎么查网络ip地址(安卓手机怎么查网络)

  • 快手充值怎么退款(快手充值怎么退不了了)

    快手充值怎么退款(快手充值怎么退不了了)

  • word文档标准格式(word文档标准的格式是什么样的)

    word文档标准格式(word文档标准的格式是什么样的)

  • 怎么获得最新Win10 21H2激活密钥 21H2激活码分享 附激活工具(怎么获得最新医学类指南)

    怎么获得最新Win10 21H2激活密钥 21H2激活码分享 附激活工具(怎么获得最新医学类指南)

  • YOLOv5 txt标签转图像标签(多个标签)(yolov5标签格式)

    YOLOv5 txt标签转图像标签(多个标签)(yolov5标签格式)

  • 可以抵扣进项税额的增值税普通发票
  • 长期未付款
  • 拍卖行业收取手续费标准
  • 去年的成本如何调整汇算清缴额
  • 工厂宿舍的水电安装规范图
  • 企业所得税汇总纳税分配比例
  • 进项税认证怎么做分录
  • 外币资本金使用范围
  • 收到发票多开税额进项转出是怎样的?
  • 营业执照首次年报
  • 固定资产销售税务处理
  • 小规模企业的企业所得税怎么交
  • 过渡费交税吗
  • 微税平台怎么打印发票
  • 企业一般每个月几号上工伤保险
  • 小规模纳税人代账流程
  • 小微企业可以抵税吗
  • 个人出租土地使用权增值税的减免
  • 采用支票结算方式的基本业务处理程序
  • 结转本月销售成本的会计分录
  • 公司房产税如何征收税率
  • 固定资产账面价值在什么情况下会出现负值
  • 管理费用处理方法包括
  • 商业承兑汇票如何签收
  • 如何将iphone照片导入电脑里
  • 安全生产专用设备目录
  • 在anaconda下安装python
  • 什么是两免一补的条件
  • laravel基础
  • 自有房子出租怎么做账
  • 多洛米蒂徒步线路
  • 财政资金借款给企业
  • Vue(ref和$refs属性介绍与使用)
  • java基础笔试题在线考
  • 小型微利企业如何进行税收筹划
  • 本月确认收入 发票下月开
  • wordpress配置数据库
  • python中列表的作用
  • pycharm pypy
  • 小企业一年需要缴纳多少税
  • 影响年度损益的金额怎么算
  • 工程材料税票怎样抵税
  • 开增值税发票规格是否可以不用填?
  • 待抵扣进项税如何在营运资金
  • 车辆保险费印花税计税金额含进项税吗
  • 固定资产可以一次性折旧吗
  • 减免进项税的分录怎么做
  • 外部审计的构成
  • 什么叫代销合同
  • 贷款损失准备的会计核算
  • 产权转让印花税减半征收
  • 建安发票是增值税发票吗
  • 劳务发票成本怎么做账
  • sql需要哪些基础
  • sqlserver升级到2016
  • centos6.9 yum
  • window10桌面有白色框
  • 让Windows XP、2003、2008自动登录的设置
  • windows server 2008 u盘安装
  • linux 详解
  • android系统应用可以禁用吗
  • chcfg.exe是什么
  • msiexec.exe是什么进程介绍
  • windows更新后一直在欢迎界面
  • win7无法打开windows功能
  • gage blocks是什么意思
  • win8怎么连接宽带账号密码
  • windows图标变化
  • dos内部命令大全
  • [置顶]JM259194
  • 欢迎使用本公司智能语音电动车
  • js下拉框怎么设置
  • javascript的代码写在哪里
  • jQuery EasyUI Pagination实现分页的常用方法
  • jquery使用方法
  • 江苏国家电子税务局新版本怎么申领发票
  • 地税局热线电话是多少
  • 一般纳税人开具的增值税普通发票和专用发票的区别
  • 北京纳税申报的具体流程
  • 煤矸石占地需要哪些手续
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设