沫丶小汐 - 宋马
沫丶小汐的头像 - 宋马
以知识为马,带你驶向未来的彼岸...

5个月前

Special Note: Using vLLM versions below 0.9.2 may result in incompatibility or incorrect precision for the model: For details, see: vllm-project vllm#19592
有改过这个问题吗,如果是 0.9.2 之前的版本会存在

升级成为0.9.2依然有同样的问题,不知道是不是有可能是a100的问题或者expert quant int8的问题。 另外尝试打印log probs结果如下,每个字符都是-12.15510082244873,很奇怪,怀疑还是算子或者什么有问题。

top_logprobs=[{  fauc : -12.15510082244873,   bol : -12.15510082244873,   meant : -12.15510082244873,   familiar : -12.15510082244873,  答案 : -12.15510082244873,  height : -12.15510082244873}, {  Congregation : -12.15510082244873,   bol : -12.15510082244873,   meant : -12.15510082244873,   familiar : -12.15510082244873,  答案 : -12.15510082244873,  height : -12.15510082244873}, { 乖巧 : -12.15510082244873,   bol : -12.15510082244873,   meant : -12.15510082244873,   familiar : -12.15510082244873,  答案 : -12.15510082244873,  height : -12.15510082244873}, {  بتر : -12.15510082244873,   bol : -12.15510082244873,   meant : -12.15510082244873,   familiar : -12.15510082244873,  答案 : -12.15510082244873,  height : -12.15510082244873}
      

请问你们之前有使用a100 gpu运行的成功经验吗?

0714update:
英文的请求能够正确输出了。
但是中文的请求搭配英文的system定义依然乱码,请问这是符合预期的吗。
请求输入如下

 {"role": "system", "content": [{"type": "text", "text": "You are a helpful assistant."}]},{"role": "user", "content": [{"type": "text", "text": "告知我你叫什么名字?"}]}
      

PS:中文system+中文user的提示词没有问题,正常返回