解决 GPTQ 模型导入后推理生成 Tokens 速度很慢的问题（从源码重新安装 Auto-GPTQ）

154 阅读 0 评论 0 点赞

这里解决的是使用 Auto-GPTQ 或者 Transformers 导入 GPTQ 模型后推理速度很慢的问题。

值得注意的是，这个问题很有可能是因为安装不正确，所以 GPTQ 无法正确使用 GPU 进行推理，也就是说无法进行加速，即便 print(model.device) 显示为 “cuda”。类似的问题见 Is This Inference Speed Slow? #130/ CUDA extension not installed #694。

这个问题是普遍存在的，当你直接使用 pip install auto-gptq 进行安装时，可能就会出现。

你可以通过以下命令检查已安装的版本：

pip list | grep auto-gptq

如果发现之前安装的版本不带 cuda 标识，卸载它，从源码重新进行安装（推理速度将提升为原来的 15 倍以上）。

如果存在 cuda 标识，那么应该去检查代码的参数是否正确。

pip uninstall auto-gptq
git clone https://github.com/PanQiWei/AutoGPTQ.git && cd AutoGPTQ

# 以下两种方式任选一种进行安装，经测试均有效
pip install -vvv --no-build-isolation -e .
# >> Successfully installed auto-gptq-0.8.0.dev0+cu121

python setup.py install
# >> Finished processing dependencies for auto-gptq==0.8.0.dev0+cu121

本站资源均来自互联网，仅供研究学习，禁止违法使用和商用，产生法律纠纷本站概不负责！如果侵犯了您的权益请与我们联系！

转载请注明出处：免费源码网-免费的源码资源网站 » 解决 GPTQ 模型导入后推理生成 Tokens 速度很慢的问题（从源码重新安装 Auto-GPTQ）

点赞(0) 打赏

本文分类：文章资讯
本文标签：解决 GPTQ 模型导入后推理生成 Tokens 速度很慢的问题（从源码重新安装 Auto-GPTQ）
浏览次数：154 次浏览
本文链接：https://freeymw.com/article/31490.html

上一篇 > JavaWeb(Servlet编程)第二章
下一篇 > gaussdb hccdp认证模拟题（判断）

评论列表共有 0 条评论

暂无评论

解决 GPTQ 模型导入后推理生成 Tokens 速度很慢的问题（从源码重新安装 Auto-GPTQ）

评论列表 共有 0 条评论

发表评论 取消回复

评论列表共有 0 条评论

发表评论取消回复