本解决方案仅供分享和交流,版权归联通粤港澳大湾区创新研究院权斌所有。
本方案获得第三届“华彩杯”算力大赛 2025 智能计算专题全国三等奖。
—————————————————————————————————————————
(正文开始)
一、项目简介
结合运营商多款视觉识别产品和政企项目实践,本项目旨在通过大模型泛化和多模态能力,打造一款“零样本”CV大模型“DeepVIS”(深度视觉),为客户提供“算力+模型+场景定制”一体化MaaS服务。该模型的出现可以简化图像标注训练流程,减少对专业建模的依赖,同时也降低了大规模训练计算的需求,帮助用户在“不会/少会操作、不标注/少标注数据、不训练/少训练模型”的前提下,也能够实现高效、快速、低成本的视觉识别应用服务。
目前该模型已在应用于工业AI质检、校园安全AI识别两个原有的视觉识别产品。在智算集群智能识别、电力施工检修等复杂场景开展试商用,通过该平台完成“少样本”场景测试,已获得签约意向2个。项目实施后,预计将带来显著的产业效益、社会效益与经济效益,推动CV的商业化发展。经测试商用,视觉识别建模时间、成本节约、算力消耗节约均超80%。
二、背景与需求分析
1、项目背景
近年来,计算机视觉(下称“CV”)技术在实际项目应用场景中,传统CV 场景模型开发方式暴露出所需数据量大、数据预处理和数据标注工作量大、模型性能测试难、模型泛化能力差等问题,极大限制了CV商业化落地。
当前CV行业主要采用“图像标注”技术对2D图像的关键点、线、框等进行标注,依托千张甚至万张同类数量素材进行训练,从而实现对某个单一、特定场景的高质量识别。
当前特定场景的视觉识别建模方式包含以下步骤:数据采集、数据预处理、数据标注-数据导出、模型训练、模型评估、模型微调、模型部署应用等步骤。
2、行业痛点分析
当前视觉识别建模方式(数据采集-预处理-标注-训练-评估-微调-部署使用)因其流程负责、专业门槛较高,呈现出以下几个痛点:
(1)所需数据量大
例如要实现一个线缆细节识别,需要收集至少1000张同一目标的多纬度形态数据,如不同角度/距离/光照/背景等。这里存在的痛点是素材搜集工作量大、素材质量把关难。
【表1:传统CV建模所需“精度-数据量-标注量”参数】
识别精度预期 |
所需图片数 |
标注目标框数 |
暂无评论内容