清华发布的一个语言视觉模型:CogVLM-17B

一个开源视觉语言模型(VLM),可以理解图像,对标LLAVA-1.5和 MiniGPT-4。CogVLM-17B拥有100亿个视觉参数和70亿个语言参数。在 NoCaps、Flicker30k 字幕、RefCOCO、RefCOCO+、RefCOCOg、Visual7W、GQA、ScienceQA、VizWiz VQA 和 TDIUC 等10个经典跨模态基准测试中实现了最先进的性能。

体验地址:http://36.103.203.44:7861
开源地址:https://github.com/THUDM/CogVLM

清华发布的一个语言视觉模型:CogVLM-17B

清华发布的一个语言视觉模型:CogVLM-17B

清华发布的一个语言视觉模型:CogVLM-17B

清华发布的一个语言视觉模型:CogVLM-17B

清华发布的一个语言视觉模型:CogVLM-17B

© 版权声明
THE END
如果内容对您有所帮助,就支持一下吧!
点赞0 分享
评论 共1条

请登录后发表评论