位置: IT常识 - 正文

ICLR2023《Crossformer: Transformer Utilizing Cross-Dimension Dependency for Multivariate Time Series》

编辑:rootadmin
ICLR2023《Crossformer: Transformer Utilizing Cross-Dimension Dependency for Multivariate Time Series》

推荐整理分享ICLR2023《Crossformer: Transformer Utilizing Cross-Dimension Dependency for Multivariate Time Series》,希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:,内容如对您有帮助,希望把文章链接给更多的朋友!

这是一篇ICLR2023 top 5%论文 论文链接:https://openreview.net/pdf?id=vSVLM2j9eie 代码:https://github.com/Thinklab-SJTU/Crossformer

1. Multivariate Time Series Forecasting

MTS,多变量时序数据预测。利用MTS的历史值可以预测其未来的趋势,例如心电图(ECG),脑电图(EEG)脑磁图(MEG)的诊断以及系统监测等等都是固有的多变量问题。该任务数据每个实例序列拥有多个维度,是一个d维向量和m个观测值(时间序列)的列表,如下所示数据(借鉴自综述论文:《The great multivariate time series classification bake off: a review and experimental evaluation of recent algorithmic advances》)

2. 动机

MTS的核心额外复杂性在于,区别性特征可能存在于维度之间的相互作用中,而不仅仅存在于单个序列中的自相关性中。标准的Transformer中核心self-attention可能仅仅建模了单个序列的自相关性,忽略了跨维度的依赖关系。

此外,如下图所示,当数据序列很长时,计算复杂性高,但是可以观察到,接近的数据点具有相似的注意权重!

基于此,作者提出一个分层encoder-decoder框架Crossformer.

3. Crossformer

目标:输入一段历史序列x1:T∈RT×Dx_{1:T} \in \mathbb{R}^{T\times D}x1:T​∈RT×D,预测未来的一段序列xT+1:T+τ∈Rτ×Dx_{T+1:T+\tau} \in \mathbb{R}^{\tau \times D}xT+1:T+τ​∈Rτ×D.

3.1 Hierarchical Encoder-Decoder

作者提出一个新的层次Encoder-Decoder的架构,如下所示,由左边encoder(灰色)和右边decoder(浅橘色)组成。其主要包含Dimension-Segment-Wise (DSW) embedding,Two-Stage Attention (TSA)层和Linear Projection。

Dimension-Segment-Wise (DSW) embedding:为了将输入x1:T∈RT×Dx_{1:T} \in \mathbb{R}^{T\times D}x1:T​∈RT×D进行分segment,从而减少计算复杂性。如果最后每个序列要分成LLL个segment,每个序列dmodeld_{model}dmodel​的通道数,则最后的输入记为:Z∈RL×D×dmodelZ \in \mathbb{R}^{L \times D \times d_{model}}Z∈RL×D×dmodel​.Two-Stage Attention (TSA)层:捕获cross-time和cross-dimension依赖关系。替待原来的self-attention在encoder和decoder中的位置。Linear Projection:应用于每一个decoder层的输出,以产生该层的预测。对各层预测结果进行求和,得到最终预测结果xT+1:T+τpredx^{pred}_{T+1:T+\tau}xT+1:T+τpred​. 下面主要讲解DSW和TSA如何实现的!3.2 Dimension-Segment-Wise embedding (DSW)ICLR2023《Crossformer: Transformer Utilizing Cross-Dimension Dependency for Multivariate Time Series》

输入x1:T∈RT×Dx_{1:T} \in \mathbb{R}^{T\times D}x1:T​∈RT×D,表明输入包含TTT个序列,每个序列有DDD个维度。如下所示,如果我们分的每个segment的长度为LsegL_{seg}Lseg​,则每个序列中可以划分出TLseg\frac{T}{L_{seg}}Lseg​T​个segment,每个序列有DDD个维度,则整个输入共包含TLseg×D\frac{T}{L_{seg}} \times DLseg​T​×D个segment,故x1:Tx_{1:T}x1:T​可以记为:x1:T={xi,d(s)∣1≤i≤TLseg,1≤d≤D}x_{1:T}=\{x^{(s)}_{i,d}|1\le i \le \frac{T}{L_{seg}}, 1 \le d \le D \}x1:T​={xi,d(s)​∣1≤i≤Lseg​T​,1≤d≤D}。在ddd维度中的第iii个segment的size记为xi,d(s)∈R1×Lsegx^{(s)}_{i,d} \in \mathbb{R}^{1 \times L_{seg}}xi,d(s)​∈R1×Lseg​,然后使用线性投影和位置嵌入将每个段嵌入到一个向量中: 其中hi,d∈Rdmodelh_{i,d} \in \mathbb{R}^{d_{model}}hi,d​∈Rdmodel​,E∈Rdmodel×LsegE \in \mathbb{R}^{d_{model} \times L_{seg}}E∈Rdmodel​×Lseg​表示可学习的映射矩阵。Ei,d(pos)∈RdmodelE^{(pos)}_{i,d} \in \mathbb{R}^{d_{model}}Ei,d(pos)​∈Rdmodel​表示在(i,d)(i,d)(i,d)位置的可学习位置嵌入。

最后,可以获得一个2D的向量数组H={hi,d∣1≤i≤TLseg,1≤d≤D}∈RTLseg×D×dmodelH=\{ h_{i,d}|1 \le i \le \frac{T}{L_{seg}},1 \le d \le D \} \in \mathbb{R}^{\frac{T}{L_{seg}} \times D \times d_{model}}H={hi,d​∣1≤i≤Lseg​T​,1≤d≤D}∈RLseg​T​×D×dmodel​.

3.3 Two-Stage Attention (TSA)

由上可得输入现在为:H∈RTLseg×D×dmodelH \in \mathbb{R}^{\frac{T}{L_{seg}} \times D \times d_{model}}H∈RLseg​T​×D×dmodel​,为了方便,记L=TLsegL=\frac{T}{L_{seg}}L=Lseg​T​,则输入为H∈RL×D×dmodelH \in \mathbb{R}^{L \times D \times d_{model}}H∈RL×D×dmodel​。TSA主要由cross-time stage和 cross-dimension stage组成,如下图所示。

Cross-Time Stage 对于每个维度,包含所有时间序列。因此,对于ddd维度Z:,d∈RL×dmodelZ_{:,d} \in \mathbb{R}^{L \times d_{model}}Z:,d​∈RL×dmodel​上,cross-time依赖关系可记为: 其中1≤d≤D1 \le d \le D1≤d≤D,所有维度共享MSA(multi-head self-attention).Cross-Dimension Stage 对于每个时间点,包含所有维度。因此,对于第iii时间点Zi,:time∈RD×dmodelZ^{time}_{i,:} \in \mathbb{R}^{D \times d_{model}}Zi,:time​∈RD×dmodel​ 1)如果使用标准Transformer进行,如下图所示,可以很容易得到复杂性为O(D2)\mathcal{O}(D^2)O(D2)!总共有LLL个时间segment,因此总复杂性为O(D2L)\mathcal{O}(D^2L)O(D2L). 2)作者引入router机制,每个时间点共享。如下图所示,Ri,:∈Rc×dmodelR_{i,:} \in \mathbb{R}^{c×d_{model}}Ri,:​∈Rc×dmodel​ (ccc是常数)是作为路由器的可学习向量,作为第一个MSA的query. Bi,:∈Rc×dmodelB_{i,:} \in \mathbb{R}^{c×d_{model}}Bi,:​∈Rc×dmodel​,作为第二个MSA的key和value. 由上可知,第一个MSA复杂性为O(cDL)\mathcal{O}(cDL)O(cDL),第二个MSA也是如此,因此,最终复杂性为O(2cDL)\mathcal{O}(2cDL)O(2cDL),其中2c2c2c为常量,记复杂性变为O(DL)\mathcal{O}(DL)O(DL)!!4 实验

SOTA方法对比 更多对比方法:

消融实验

参数分析

复杂性分析

可视化

运行速度对比

5. 结论提出了Crossformer,一种基于transformer的模型,利用跨维度依赖进行多元时间序列(MTS)预测。DSW (dimension - segment - wise)嵌入:将输入数据嵌入到二维矢量数组中,以保留时间和维度信息。为了捕获嵌入式阵列的跨时间和跨维度依赖关系,设计两阶段注意(TSA)层。利用DSW嵌入和TSA层,设计了一种分层编码器(HED)来利用不同尺度的信息。

在6个数据集上的实验结果展示了该方法优于之前的先进技术。

以上仅为本人小记,有问题欢迎指出(●ˇ∀ˇ●)

本文链接地址:https://www.jiuchutong.com/zhishi/298902.html 转载请保留说明!

上一篇:vue3:安装配置sass(vue3 安装)

下一篇:unplugin-auto-import 和 unplugin-vue-components(unplugin-auto-import/vite)

  • iqoo8怎么设置省电模式(iqoo5如何设置省电)

    iqoo8怎么设置省电模式(iqoo5如何设置省电)

  • 拍一拍炸一炸怎么设置(拍一拍炸一炸怎么设置后面的文字)

    拍一拍炸一炸怎么设置(拍一拍炸一炸怎么设置后面的文字)

  • 抖音审核要多久呢(抖音审核多久才发布)

    抖音审核要多久呢(抖音审核多久才发布)

  • 网络电视怎么看新闻联播直播(网络电视怎么看地方台节目)

    网络电视怎么看新闻联播直播(网络电视怎么看地方台节目)

  • 苹果手机应用宝怎么下载(苹果手机应用宝怎么下载不了)

    苹果手机应用宝怎么下载(苹果手机应用宝怎么下载不了)

  • 设备管理信任跳不出来(设备信任有什么危害)

    设备管理信任跳不出来(设备信任有什么危害)

  • 苹果手表s4全部功能(苹果手表s4全部功能可以微信视频吗)

    苹果手表s4全部功能(苹果手表s4全部功能可以微信视频吗)

  • 计算机内存储器中的基本存储单位是(计算机内存储器分为)

    计算机内存储器中的基本存储单位是(计算机内存储器分为)

  • oppo find x2和pro什么区别(oppo find x2和find x2pro)

    oppo find x2和pro什么区别(oppo find x2和find x2pro)

  • 魅族m681q什么型号(魅族m681是什么型号)

    魅族m681q什么型号(魅族m681是什么型号)

  • qq动态权限设置三天(如何修改qq动态权限设置)

    qq动态权限设置三天(如何修改qq动态权限设置)

  • 支持win7的主板(支持win7的主板最高型号)

    支持win7的主板(支持win7的主板最高型号)

  • miui11小米怎么隐藏通知内容(miui11怎么隐藏app)

    miui11小米怎么隐藏通知内容(miui11怎么隐藏app)

  • 知乎可以看到别人的浏览记录吗(知乎可以看到别人在线吗)

    知乎可以看到别人的浏览记录吗(知乎可以看到别人在线吗)

  • ipad关机了还能追踪吗(ipad关机了还能播放声音吗)

    ipad关机了还能追踪吗(ipad关机了还能播放声音吗)

  • 荣耀双击亮屏在哪里设置(荣耀双击亮屏在哪里关闭)

    荣耀双击亮屏在哪里设置(荣耀双击亮屏在哪里关闭)

  • 苹果型号ch/a什么版本(苹果型号ch/a什么意思)

    苹果型号ch/a什么版本(苹果型号ch/a什么意思)

  • 快手顶置作品怎么搞(快手作品咋置顶啊)

    快手顶置作品怎么搞(快手作品咋置顶啊)

  • 通讯卫星是同步卫星吗(通迅卫星也称同步卫星,同步卫星若成为静止卫星)

    通讯卫星是同步卫星吗(通迅卫星也称同步卫星,同步卫星若成为静止卫星)

  • 小米9屏幕尺寸多少(小米9屏幕尺寸多大)

    小米9屏幕尺寸多少(小米9屏幕尺寸多大)

  • switch lite屏幕尺寸(switchlite屏幕尺寸和苹果8P)

    switch lite屏幕尺寸(switchlite屏幕尺寸和苹果8P)

  • 苹果11电池容量多少(苹果11电池容量怎么看)

    苹果11电池容量多少(苹果11电池容量怎么看)

  • 如何使用nfc坐地铁(如何使用nfc坐地铁刷卡)

    如何使用nfc坐地铁(如何使用nfc坐地铁刷卡)

  • 数据线保护线怎么缠(数据线保护线怎么套上去)

    数据线保护线怎么缠(数据线保护线怎么套上去)

  • 一加6发布时间(一加6啥时候发布的)

    一加6发布时间(一加6啥时候发布的)

  • 华为mate20玩游戏微信不提醒(华为mate20玩游戏怎么聊微信)

    华为mate20玩游戏微信不提醒(华为mate20玩游戏怎么聊微信)

  • phpcms v9 php7可以运行吗(phpcms v9 getshell)

    phpcms v9 php7可以运行吗(phpcms v9 getshell)

  • 代收代缴个人所得税手续费
  • 出口退税中的免抵税额可以认为是交的税吗
  • 联合体项目工程款如何拨付
  • 装修费用摊销是当月还是次月
  • 投资款算什么会计科目
  • 招待费汇算清缴扣除比例
  • 劳务 劳务报酬所得
  • 佣金可以入账吗
  • 股权转让交的税如何做账
  • 职工福利费计提比例一般是多少
  • 个体工商户多久不用自动注销
  • 社保公积金会计分录怎么写
  • 定额发票去年的能用吗
  • 应交增值税减免税款账务处理
  • 商业保险可以报税吗
  • 无形资产摊销表模板
  • 企业自用房产出售怎么交税
  • 从农民手里收的钱叫什么
  • 购买加油卡能否开发票
  • 以土地入股需要开发票吗
  • 企业土地未全部使用如何缴纳房产税?
  • win11如何在开机的时候进入安全模式
  • 华为鸿蒙系统怎么样
  • 公司增资扩股需要考略公司资产吗
  • win11测试版和正式版区别
  • 个体户流水太大工商局会查吗
  • php自学
  • 融资中的未确认利息
  • 增值税的具体内容包括
  • 律师费怎样入账
  • 小茴香的栽培技术
  • php图片下载本地功能
  • 房地产取得土地怎么做账
  • 从上魏斯巴赫山地列车的车站向外看,德国图林根 (© golero/iStock/Getty Images Plus)
  • 增值税待认证进项税额
  • 支付的招标代理费计入成本还是费用
  • java+php
  • 携程首页
  • explorer.exe无响应桌面卡死是什么原因
  • 残保金是应交税金吗
  • css 入门
  • 发票勾选认证具体流程
  • c语言中sizeof是啥意思
  • 清包工一般计税如何开票
  • 网上变更财务负责人新负责人要确认吗
  • 伤残补助金和工资一样吗
  • 应付账款坏账损失的会计分录
  • 工会记账凭证怎么记
  • 合作社分红计入什么科目
  • 员工误餐费是否缴纳个人所得税
  • 本年利润的会计分录
  • 税法的个人所得税
  • 土地增值税应纳税额
  • 销售公司扣款制度合法吗
  • 增值税专用发票丢了怎么补救
  • 公司做账开票是什么意思
  • 为什么银行结息不加入账户
  • 登记账簿遇到的问题及解决
  • 资产质量的相对性举例说明
  • 建立明细账科目怎么排顺序
  • sqlserverssms
  • Navicat连接MySQL报错
  • windows开发了多久
  • bios设置电脑定时启动
  • win2008远程桌面
  • linuxnamespace入门
  • jusched.exe是什么进程
  • packethsvc.exe - packethsvc是什么进程 有什么用
  • wire软件下载
  • margin负值
  • .json()
  • 塔防类的网游
  • cocos2d怎么用
  • 批量ghost
  • JavaScript+html5 canvas实现本地截图教程
  • 水利基金税率‰6什么时候调整
  • 广东etc政策
  • 空置房物业收费标准
  • 上海个体工商户怎么报税
  • oecd是什么意思的缩写
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设