Your current environment
有由于显存不足,想使用cpu_offload_gb或者量化qwen3
测了下cpu_offload_gb并没生效,请问是否支持?
另外最新文档中说明 用这个分支modelslim-VLLM-8.1.RC1.b020_001,但是这个分支看了下好像不支持qwen3,请问如何对qwen3-235b量化
How would you like to use vllm on ascend
I want to run inference of a [specific model](put link here). I don t know how to integrate it with vllm.
© 版权声明
文章版权归作者所有,未经允许请勿转载。如内容涉嫌侵权,请在本页底部进入<联系我们>进行举报投诉!
THE END
- 最新
- 最热
只看作者@Yikun cpu_offload_gb目前是是不支持吗
@22dimensions 量化有新进展吗
@22dimensions
you can use master modelslim to convert qwen3 235b, see https: gitee.com ascend msit blob master msmodelslim README.md