vllm-ascwrap things up项目显存不足解决方案及qwen3-235b量化支持详解 - 宋马

发布

vllm-ascwrap things up项目显存不足解决方案及qwen3-235b量化支持详解

8天前发布

370

Your current environment

有由于显存不足，想使用cpu_offload_gb或者量化qwen3
测了下cpu_offload_gb并没生效，请问是否支持？
另外最新文档中说明用这个分支modelslim-VLLM-8.1.RC1.b020_001，但是这个分支看了下好像不支持qwen3，请问如何对qwen3-235b量化

How would you like to use vllm on ascend

I want to run inference of a [specific model](put link here). I don t know how to integrate it with vllm.

© 版权声明

文章版权归作者所有，未经允许请勿转载。如内容涉嫌侵权，请在本页底部进入<联系我们>进行举报投诉!

THE END

如果内容对您有所帮助,就支持一下吧!

随机推荐

评论共3条

请登录后发表评论

- 一梨Nini0
  @Yikun cpu_offload_gb目前是是不支持吗
  @22dimensions 量化有新进展吗
  8天前回复
  举报
- 肉番烧0
  @22dimensions
  8天前回复
  举报
- 村长0
  you can use master modelslim to convert qwen3 235b, see https: gitee.com ascend msit blob master msmodelslim README.md
  8天前回复
  举报