vllm-ascwrap things up项目显存不足解决方案及qwen3-235b量化支持详解

Your current environment

有由于显存不足,想使用cpu_offload_gb或者量化qwen3
测了下cpu_offload_gb并没生效,请问是否支持?
另外最新文档中说明 用这个分支modelslim-VLLM-8.1.RC1.b020_001,但是这个分支看了下好像不支持qwen3,请问如何对qwen3-235b量化

How would you like to use vllm on ascend

I want to run inference of a [specific model](put link here). I don t know how to integrate it with vllm.

© 版权声明
THE END
如果内容对您有所帮助,就支持一下吧!
点赞0 分享
评论 共3条

请登录后发表评论