使用vllm(0.9.1版本)进行启动,启动命令如下,使用的8*A100显卡,并且已经根据教程将architectures改为MiniMaxText01ForCausalLM
export SAFETENSORS_FAST_GPU=1
export VLLM_USE_V1=0
VLLM_LOGGING_CONFIG_PATH=vllm_log_config.json python -u -m vllm.entrypoints.openai.api_server
--model open_source_models/MiniMax-M1-80k
--tensor-parallel-size 8
--trust-remote-code
--quantization experts_int8
--max_model_len 4096
--dtype bfloat16
server启动正常,但是使用client请求后,输出部分为乱码,请求代码如下:
chat_response = client.chat.completions.create(
model=model,
messages=[
{"role": "system", "content": [{"type": "text", "text": "You are a helpful assistant."}]},
{"role": "user", "content": [{"type": "text", "text": "Who won the world series in 2020?"}]}
],
max_tokens=1024,)
# print("Chat response:", chat_response)
print("Chat think response:",chat_response.choices[0].message.reasoning_content)
print("Chat response:",chat_response.choices[0].message.content)
结果如下:
Chat think response: None
Chat response: 特点和(from co的背后 మ nameSuggestionxin physiologic……(乱码循环)
请问下可能是什么缘由呢
© 版权声明
文章版权归作者所有,未经允许请勿转载。如内容涉嫌侵权,请在本页底部进入<联系我们>进行举报投诉!
THE END

















- 最新
- 最热
只看作者我提议使用 vLLM 提供的 docker,这样环境会更稳定一些。
Your current environment
Special Note: Using vLLM versions below 0.9.2 may result in incompatibility or incorrect precision for the model:
For details, see: vllm-project vllm#19592
有改过这个问题吗,如果是 0.9.2 之前的版本会存在
72K和80K只是目录文件的区别,都是80k的模型,可以忽略。