快速登录
超级感谢您的耐心回答!经过验证,(使用V100任务+V100模型,为Jetson target生成程序),迁移到Jetson的程序的确能够正确运行。反应到程序,就是
[图片]
接着,我将这批在Jetson上测得的、带有真实latency的数据作为示范数据,对clm_gen_best_v100模型进行了一次SFT。但正如您所预料,也验证了我的一个猜想:由于初期的数据量过少(仅有几十个成功生成的有效方案),新微调出的模型出现了严重的过拟合,在bert_base上的端到端性能反而大幅下降,且性能抖动(标准差)巨大。
虽然还没来得及尝试使用ansor对比实验结果,但目前的这个结果引发了我一个新的、更深层次的思考,希望能听听您的宝贵意见:
我的核心问题是关于如何正确地将您提供的V100模型适配到新硬件上。
我是否可以这样理解:
将您预训练的clm_gen_best_v100模型,不看作一个针对V100的“最终成品”,而是一个已经学习了张量程序优化通用“语法”和“模式”的、强劲的预训练基座(进阶的 TLM-base)?
基于这个思想,我的下一步计划是:在Jetson上持续地进行“生成-测量”循环来扩展示范数据集,然后用这份不断增大的、纯正的Jetson数据集,对clm_gen_best_v100这个“基座”进行多轮次的、持续的SFT迭代优化。我的期望是,通过这种方式,模型能够逐渐“学会”Jetson的硬件特性,在保留其强劲v100通用知识的同时,也成为一个Jetson平台上的优化器。
请问这个“将V100模型作为通用基座,通过在新硬件上迭代SFT来逐步适配”的思路,是否是符合TLM设计思想的正确路径?
这个思路进一步引出了一个关于模型容量和知识兼容性的问题:①如果我用上述方法成功训练出一个精通Jetson的模型,它原来对于V100的优化能力是否会下降(即发生“灾难性遗忘”)?②或者说,TLM的架构的设计,是否能够通过Prompt中的target信息,来有效地区分和调用不同硬件的知识库,从而实现单一模型对多硬件平台的良好兼容?
把个性签名上的文字清空,然后点击保存就可以删除了。
社交账号登录