FLAME项目详解:Synthetic Data Generation、Street Check at Caption Generation及Feeldown Feature提取方法解析

近期在阅读论文《FLAME: Learning to Navigate with Multimodal LLM in Urban Environments》时,受到了很大的启发。目前,我正在尝试复现论文中的实验结果,并使用您Github上的代码,希望能向您请教以下几个问题:
1、对于论文中提到Synthetic Data Generation、Street View Caption Generation、Route Summary Generation、Rationale Generation for VLN Datasets 4个部分数据生成的细节不太理解,您是否方便提供下生成的代码或者细节说明?
2、关于touchdown_feature这部分,您使用CLIP的哪个配置进行提取特征和细节?

© 版权声明
THE END
如果内容对您有所帮助,就支持一下吧!
点赞0 分享
小白摸鱼日记的头像 - 宋马
评论 共1条

请登录后发表评论