位置: IT常识 - 正文

cuda常见报错(cuda completed with errors)

编辑:rootadmin
cuda常见报错 RuntimeError: CUDA error: device-side assert triggered

推荐整理分享cuda常见报错(cuda completed with errors),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:cuda available false,cuda available false,cuda error unspecified,cuda is not available,cuda error in cudaprogram,cuda available false,cuda.is_available false,cuda completed with errors,内容如对您有帮助,希望把文章链接给更多的朋友!

CUDA kernel errors might be asynchronously reported at some other API call, so the stacktrace below might be incorrect. For debugging consider passing CUDA_LAUNCH_BLOCKING=1. /pytorch/aten/src/ATen/native/cuda/IndexKernel.cu:93:  operator(): block: [0,0,0], thread: [70,0,0]  Assertion index >= -sizes[i] && index < sizes[i] && "index out of bounds" failed.

Assertion `index >= -sizes[i] && index < sizes[i] && "index out of bounds"

数据超出了边界。在给出label的时候,我的数据集在某个标签上会给进去一个小于零或者大于类别数的一个标签,大白话就是设定了模型分类数量为4,但是数据集中有大于4个类别则会报错,少于4个是不会报错。

解决方法:修改预设的类别数量,class_map里面预先写好的类别个数和实际的数据集里面的标签种类和个数不同。可以要修改class_map或者修改数据集。

device-side assert triggered,CUDA kernel errors might be asynchronously reported at some other API call,so the stacktrace below might be incorrect.

/pytorch/aten/src/ATen/native/cuda/IndexKernel.cu:93: operator(): block: [0,0,0], thread: [28,0,0] Assertion index >= -sizes[i] && index < sizes[i] && "index out of bounds" failed.

标签索引不正确,即标签编号大于定义标签,定义crf层的时候标签的类别数和yaml中的类别数不同,要么修改标签文件,要么修改层的类别数量定义

TypeError: can't convert cuda:0 device type tensor to numpy. Use Tensor.cpu() to copy the tensor to host memory first.cuda常见报错(cuda completed with errors)

原因:

a = str(trues_cls.detach().numpy()[0]) #这样是错误的numpy不能读取CUDA tensor 需要将它转化为 CPU tensor。

解决方法:

CUDA tensor格式的数据改成numpy时,需要先将其转换成cpu float-tensor随后再转到numpy格式。a= str(trues_cls.detach().cpu().numpy()[0])  # 这样是正确的​​​​​​​# detach(): 返回一个新的Tensor,但返回的结果是没有梯度的。 # cpu():把gpu上的数据转到cpu上。 # numpy():将tensor格式转为numpyRuntimeError: CUDA error: invalid device ordinal

CUDA kernel errors might be asynchronously reported at some other API call,so the stacktrace below might be incorrect.

For debugging consider passing CUDA_LAUNCH_BLOCKING=1.

输入的显卡卡号错了,可以切换显卡号的数字尝试

不同的设备同样参数的情况下训练结果不一致的问题

原因:dropout层的随机性,当输入dropout层的数据维度大于57346时,从第57347位开始不同显卡的结果会不一样,原因是不同显卡的数据采样方法在第57346位后存在差别。

解决方法:手动构造一个由randn实现的dropout层,可以实现跨机结果一致

伯努利分布,使用torch.tensor,与cuda有关,randn和数字有关

服务器存在两个卡,但只能用其中一张卡跑程序

原因:环境使用了export,导致只有一个 GPU可见 (GPU:0),而程序中使用 GPUs:1。

输入export CUDA_VISIBLE_DEVICES = '0,1',让设备变为两个,方便在环境中随意切换

本文链接地址:https://www.jiuchutong.com/zhishi/285053.html 转载请保留说明!

上一篇:vue项目pc端和移动端适配(vue移动和pc两套代码)

下一篇:HTML a 标签详解(html中a标签的作用)

  • 励志故事是说给失败者听的(是励志的故事)

  • 微博怎么存视频(微博怎么存视频到手机相册)

  • 微信团队怎么取消不了关注(微信团队怎么取消不了)

  • 微信登不上去了,里面的钱怎么办(微信登不上去了怎么注销账号)

  • qq音乐买一张专辑可以送人吗(qq音乐一张专辑买一首歌)

  • apple tv remote是什么意思(apple tv retroarch)

  • 您拨打的电话正忙是为什么(您拨打的电话正在通话中如需留言请按1)

  • 钉钉直播悬浮窗看电视剧影响时长吗(钉钉直播悬浮窗看视频)

  • 抖音直播的点赞可以换钱吗(抖音直播的点赞量怎么结算)

  • 66铃声暂停服务是怎么回事(66铃声为什么进不去)

  • win10无限闪屏(window10不断闪屏)

  • 第九代i5和i7的区别有多大(九代i5和i7差别)

  • pcdm00是什么型号手机(pcdm10是什么型号的手机)

  • 哔哩哔哩大会员和电视大会员有什么区别

  • 哔咔漫画ios怎么下载(哔咔漫画ios怎么下载知乎)

  • 为什么运动世界校园定位不了(为什么运动世界校园跑步了没有记录)

  • 手机屏幕抖屏怎么解决(手机屏幕抖动解决方法视频)

  • 苹果手机直播怎么投屏电脑(苹果手机直播怎么设置更清晰)

  • vue视频保存相册找不到(vue保存不了视频咋整)

  • 华为p30pro怎么拍夜景(华为p30pro怎么拍星星)

  • p30如何关机(p30手机如何关机)

  • xr录屏功能在哪(xr录屏在哪里打开)

  • 转转怎么交易(转转怎么交易虚拟物品)

  • Win11怎么显示添加小组件按钮?Win11添加小组件按钮不显示的解决方法(windows11怎么显示我的电脑)

  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设 电脑维修 湖南楚通运网络