清华发布的一个语言视觉模型：CogVLM-17B - 宋马

发布

清华发布的一个语言视觉模型：CogVLM-17B

前天发布

110

一个开源视觉语言模型（VLM），可以理解图像，对标LLAVA-1.5和 MiniGPT-4。CogVLM-17B拥有100亿个视觉参数和70亿个语言参数。在 NoCaps、Flicker30k 字幕、RefCOCO、RefCOCO+、RefCOCOg、Visual7W、GQA、ScienceQA、VizWiz VQA 和 TDIUC 等10个经典跨模态基准测试中实现了最先进的性能。

体验地址：http://36.103.203.44:7861
开源地址：https://github.com/THUDM/CogVLM

清华发布的一个语言视觉模型：CogVLM-17B

清华发布的一个语言视觉模型：CogVLM-17B

清华发布的一个语言视觉模型：CogVLM-17B

清华发布的一个语言视觉模型：CogVLM-17B

清华发布的一个语言视觉模型：CogVLM-17B

© 版权声明

文章版权归作者所有，未经允许请勿转载。如内容涉嫌侵权，请在本页底部进入<联系我们>进行举报投诉!

THE END

如果内容对您有所帮助,就支持一下吧!

随机推荐

评论共1条

请登录后发表评论

- 糖果派对爆分网址0
  收藏了，感谢分享
  3天前回复
  举报