一个开源视觉语言模型(VLM),可以理解图像,对标LLAVA-1.5和 MiniGPT-4。CogVLM-17B拥有100亿个视觉参数和70亿个语言参数。在 NoCaps、Flicker30k 字幕、RefCOCO、RefCOCO+、RefCOCOg、Visual7W、GQA、ScienceQA、VizWiz VQA 和 TDIUC 等10个经典跨模态基准测试中实现了最先进的性能。
体验地址:http://36.103.203.44:7861
开源地址:https://github.com/THUDM/CogVLM





© 版权声明
文章版权归作者所有,未经允许请勿转载。如内容涉嫌侵权,请在本页底部进入<联系我们>进行举报投诉!
THE END




















- 最新
- 最热
只看作者