位置: IT常识 - 正文

Transformer中的Q/K/V理解(transformer中的token)

编辑:rootadmin
Transformer中的Q/K/V理解

推荐整理分享Transformer中的Q/K/V理解(transformer中的token),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:transformer中的mask,transformer中的embedding,transformer中的mlp,transformer中的mask,transformer中的mlp的作用,transformer中的token,transformer中的位置编码,transformer中的位置编码如何起作用,内容如对您有帮助,希望把文章链接给更多的朋友!

输入句子序列:我爱吃酸菜鱼

上图为输入矩阵,每个token的维度为768维,则矩阵维度为Lx768。

第一步:通过乘以线性变化矩阵(维度为768x768),得到矩阵Q,K,V(维度为Lx768):

上图为线性变换后得到的矩阵Q,K,V,维度为Lx768,和输入矩阵相比维度未发生变化。

为什么叫自注意力网络:因为可以看到Q/K/V都是通过同一句话的输入算出来的。

第二步:将矩阵Q与相乘:

*向量点积可以表征向量间的相似程度或关联程度

Transformer中的Q/K/V理解(transformer中的token)

首先用Q的第一行,即“我”字的768特征和K中“我”字的768维特征点乘求和,得到输出(0,0)位置的数值,这个数值就代表了“我想吃酸菜鱼”中“我”字对“我”字的注意力权重,然后显而易见输出的第一行就是“我”字对“我想吃酸菜鱼”里面每个字的注意力权重。整个结果自然就是“我想吃酸菜鱼”里面每个字对其它字(包括自己)的注意力权重(就是一个数值)~以此得到注意力权重矩阵(LxL)。

第三步:对注意力权重矩阵进行处理,除以,并通过softmax函数转化:

这个dim就是768,至于为什么要除以这个数值?主要是为了缩小点积范围,确保softmax梯度稳定性。然后就是为什么要softmax,一种解释是为了保证注意力权重的非负性,同时增加非线性。

第四步:注意力权重矩阵与矩阵V相乘:

首先是“我”这个字对“我想吃酸菜鱼”这句话里面每个字的注意力权重,和V中“我想吃酸菜鱼”里面每个字的第一维特征进行相乘再求和,这个过程其实就相当于用每个字的权重对每个字的特征进行加权求和,然后再用“我”这个字对“我想吃酸菜鱼”这句话里面每个字的注意力权重和V中“我想吃酸菜鱼”里面每个字的第二维特征进行相乘再求和,依次类推~最终也就得到了Lx768维的结果矩阵,和输入保持一致~

K和V中,如果同时替换任意两个字的位置,对最终的结果是不会有影响的。也就是说注意力机制是没有位置信息的,不像CNN/RNN/LSTM。这也是为什么要引入position embedding的原因。

可以将V看作一个token序列,序列中的每个token在一开始都是互相独立的,信息量有限。而想要让每个token包含更多的信息,一个办法就是让每个token去融合该序列中其他token的信息。融合方式中,最差的方法是取平均(mean pool),会有大量实际不相关的信息被融入; 更好的方式是按照该token和其他token的相关度加权求和。

那么问题来了,怎么看V中每一个token和其他token的相关度,并将相关度量化成权重数值(用于最终的加权求和)?

这个时候,Q和K来了,Q是询问的token(对应到V中的某个token),K是被询问的token序列,Q问K,你的哪个token跟我最像?Q挨个问一遍K中的token,每个token和Q比较后(点积)得到一个和Q的相似程度,组成一个相似度序列。

相似度序列归一化后变成一个和为1序列,可以看成是一个权重。

参考:https://www.zhihu.com/people/zui-tian-20-46/answers

参考:https://www.zhihu.com/question/298810062/answer/1829118404

本文链接地址:https://www.jiuchutong.com/zhishi/298938.html 转载请保留说明!

上一篇:无云服务器,Linux本地快速搭建web网站,并内网穿透发布上线(云服务器 chia)

下一篇:【JavaScript】JS实用案例分享:输入智能提示 | 打字机输出效果(js示例)

  • 乐播投屏码哪里获取(乐播投屏的投屏码在哪里找)

    乐播投屏码哪里获取(乐播投屏的投屏码在哪里找)

  • 电脑指令怎么打开(电脑怎么调出指令)

    电脑指令怎么打开(电脑怎么调出指令)

  • 拼多多拼单返现没有了(拼多多拼单返现金是真的吗)

    拼多多拼单返现没有了(拼多多拼单返现金是真的吗)

  • 微信怎么不被好友拉进群(微信怎么不被好友看到手机号)

    微信怎么不被好友拉进群(微信怎么不被好友看到手机号)

  • 电脑录屏有没有时间限制(录屏 电脑)

    电脑录屏有没有时间限制(录屏 电脑)

  • 2020抖音用户有多少亿人(抖音用户数2021)

    2020抖音用户有多少亿人(抖音用户数2021)

  • 摄像头40mp什么意思(摄像头480p是什么意思)

    摄像头40mp什么意思(摄像头480p是什么意思)

  • vivo手机前置摄像头模糊怎么回事(vivo手机前置摄像头旁边那个是什么)

    vivo手机前置摄像头模糊怎么回事(vivo手机前置摄像头旁边那个是什么)

  • 全民k歌退出登录别人还能看到吗(全民k歌退出登录,别人还能不能看见主页了)

    全民k歌退出登录别人还能看到吗(全民k歌退出登录,别人还能不能看见主页了)

  • 三星note8有几个版本(三星note8有几个系列)

    三星note8有几个版本(三星note8有几个系列)

  • iphone8可不可以分屏操作(iphone8可不可以录屏)

    iphone8可不可以分屏操作(iphone8可不可以录屏)

  • vivo淘宝分身版在哪下载(vivo手机淘宝分身)

    vivo淘宝分身版在哪下载(vivo手机淘宝分身)

  • onc键是什么意思(on/c叫作什么键)

    onc键是什么意思(on/c叫作什么键)

  • 华为何时更新emui10(华为什么时候升级emui12)

    华为何时更新emui10(华为什么时候升级emui12)

  • idc排名怎么查(idc牌照查询)

    idc排名怎么查(idc牌照查询)

  • word里替换数字字体(word替换数字通配符)

    word里替换数字字体(word替换数字通配符)

  • 魅族手机私密空间在哪(魅族手机私密空间怎么打开视频)

    魅族手机私密空间在哪(魅族手机私密空间怎么打开视频)

  • 手机后台耗电怎么办

    手机后台耗电怎么办

  • 怎么退出talkback模式(小米怎么退出talkback)

    怎么退出talkback模式(小米怎么退出talkback)

  • 淘宝联合登录有风险吗(淘宝联盟登录失败怎么回事)

    淘宝联合登录有风险吗(淘宝联盟登录失败怎么回事)

  • 淘宝有夜间模式没有(淘宝有夜间模式怎么开)

    淘宝有夜间模式没有(淘宝有夜间模式怎么开)

  • 4500a等于多少瓦(4500w等于多少a)

    4500a等于多少瓦(4500w等于多少a)

  • 能量球收取失败(能量球不显示还剩多久可收取)

    能量球收取失败(能量球不显示还剩多久可收取)

  • 快手被拉黑了是不是看不到别人作品(快手被拉黑了是不是就关注不了对方了)

    快手被拉黑了是不是看不到别人作品(快手被拉黑了是不是就关注不了对方了)

  • oppor17有红外线功能吗(oppor17有红外线感应吗)

    oppor17有红外线功能吗(oppor17有红外线感应吗)

  • deepin系统安装成功后网速很慢怎么办?(deepin安装win)

    deepin系统安装成功后网速很慢怎么办?(deepin安装win)

  • 案例说明:vue中Element UI下拉列表el-option中的key、value、label含义各是什么(vue经典案例)

    案例说明:vue中Element UI下拉列表el-option中的key、value、label含义各是什么(vue经典案例)

  • Node.js安装及npm国内镜像配置(node.js如何安装)

    Node.js安装及npm国内镜像配置(node.js如何安装)

  • 怎么查19年以前税收
  • 股票交易印花税降低
  • 计提企业所得税会计科目
  • 转让不动产取得的收入
  • 个税申报系统累计收入怎么算
  • 小企业以前年度损益调整科目编码
  • 购买树木计入什么科目
  • 一般企业需要缴纳的税种
  • 无形资产资本化加计扣除可抵扣暂时性差异
  • 土地转让缴纳增值税政策
  • 收取员工宿舍租金收入要交增值税吗
  • 企业职工支付条例
  • 小规模纳税人附加税减免政策2023
  • 小微企业资质证书
  • 劳务费可以开吗
  • 利润表反映了哪些情况
  • 利润分配需要缴纳企业所得税吗
  • 税控盘离线时限为0
  • 购进原材料影响营业利润吗
  • 小微企业增值税减免政策
  • 免税单位无租使用纳税单位土地
  • 法院强制拍卖房子流程
  • u盘转移到另一个u盘
  • linux禁用root用户
  • 如何在苹果电脑上删除软件
  • 广告业进项都能开什么票
  • 饭店开业请客说什么
  • PHP:pg_convert()的用法_PostgreSQL函数
  • 企业自产自用产品要交增值税吗?
  • 进程mmc.exe
  • PHP:image_type_to_mime_type()的用法_GD库图像处理函数
  • 以非现金资产清偿债务的,债权人应当
  • 华为心率血压智能手表怎么样
  • 增资后股权转让
  • vue中使用require报错
  • 图像融合名词解释
  • php url函数
  • php判断字符串是否包含字母
  • 未开票收入为负数是什么意思
  • 为什么增值税申报表保存不了
  • 退货可以开红字发票吗
  • 固定资产折旧完报废账务处理
  • 工程项目怎么挣钱
  • 支付土地补偿款账务处理
  • mysql视图菜鸟教程
  • sql的where条件怎么写
  • 事业单位出售废品流程
  • 长期待摊费用属于资产类吗
  • 呆滞原材料变卖的会计处理
  • 社保公积金怎么取出来
  • 去年所得税汇算清缴报表填错了今年可以改吗
  • 淘宝卖家运费险为什么越来越贵
  • 房租增值税专用发票可以抵扣吗
  • 收到第三方补助怎么做账
  • 企业经营状态为清算是什么意思
  • 主营业务收入的英文
  • 清洁服务公司账务处理
  • 编制记账凭证的依据
  • 账簿设置方法
  • mysql sqlserver语法
  • 备份数据还原不了怎么办
  • win10下mysql 5.7.17 zip压缩包版安装教程
  • window装机必备应用
  • Windows Server 2008中安装DNS服务器详细图文教程
  • vim如何操作
  • 如何利用批处理实现更改ip修改
  • windows xp 2021 r3
  • win7双硬盘双系统
  • ppap是什么文件
  • win10纯净系统安装教程
  • 怎么看清水印
  • 用于登录
  • 怎样使用jquery
  • js script跨域
  • js 堆排序
  • 宁波鄞州区行政区划代码
  • 国家税务网上办税
  • 新疆国税网上营业厅
  • 代理记账管理办法2023
  • 个人转让住宅需要缴纳什么税
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设