Bug | CUDA | cuDNN error: CUDNN_STATUS_INTERNAL_ERROR

13 阅读 0 评论 0 点赞

问题描述

今天在调试 Mamba 模型，然后我发现一个很奇怪的现象：如果我指定了 “CUDA:5” 进行调试，程序就会出现如下的报错；但如果我用 “CUDA:0” 运行程序，就能够正常运行，不发生程序报错。

我从张量的维度，张量的数据类型等方面都详细检查过了，同时确保了张量和模型也确实同时在 “CUDA:5” 显卡上，这让我和GPT都一脸懵逼。

错误代码

我用如下的代码指定当前环境的可见显卡，这样一来，你猜猜我的 inputs 会出现哪张显卡上？

出现在：CUDA0！而非CUDA5！

import torch
import models
import os
os.environ["CUDA_VISIBLE_DEVICES"] ="5"
inputs = torch.randn(2, 1024, 3).cuda()

正确代码

正确方法！必须在导入torch前，就设置 CUDA_VISIBLE_DEVICES ，代码如下，否则无效！

确保 os.environ["CUDA_VISIBLE_DEVICES"] = "5" 这一行代码是在导入 PyTorch 或执行任何 CUDA 操作之前设置的。如果已经有其他 CUDA 操作或模块初始化在 CUDA_VISIBLE_DEVICES 之前执行，那么这个环境变量的更改不会生效。

import os
os.environ["CUDA_VISIBLE_DEVICES"] ="5,6"

import torch
import models

错因总结

因为我使用了错误代码，因此运行环境仍然对所有显卡都可见，导致某些中间运行结果暂存在 "CUDA:0" 上，这与我的模型 "CUDA:5" 的设备不一致，导致发生错误。

切记！检查环境变量是否生效！

本站资源均来自互联网，仅供研究学习，禁止违法使用和商用，产生法律纠纷本站概不负责！如果侵犯了您的权益请与我们联系！

转载请注明出处：免费源码网-免费的源码资源网站 » Bug | CUDA | cuDNN error: CUDNN_STATUS_INTERNAL_ERROR

点赞(0) 打赏

本文分类：文章资讯
本文标签：Bug | CUDA | cuDNN error: CUDNN_STATUS_INTERNAL_ERROR
浏览次数：13 次浏览
本文链接：https://freeymw.com/article/25322.html

上一篇 > 【uniapp重大bug】uni-data-select的localdata改变，也会触发@change方法
下一篇 > 如何尽早地发现并抵御 DDoS 攻击?

评论列表共有 0 条评论

暂无评论

Bug | CUDA | cuDNN error: CUDNN_STATUS_INTERNAL_ERROR

问题描述

错误代码

正确代码

错因总结

评论列表 共有 0 条评论

发表评论 取消回复

评论列表共有 0 条评论

发表评论取消回复