近期在阅读论文《FLAME: Learning to Navigate with Multimodal LLM in Urban Environments》时,受到了很大的启发。目前,我正在尝试复现论文中的实验结果,并使用您Github上的代码,希望能向您请教以下几个问题:
1、对于论文中提到Synthetic Data Generation、Street View Caption Generation、Route Summary Generation、Rationale Generation for VLN Datasets 4个部分数据生成的细节不太理解,您是否方便提供下生成的代码或者细节说明?
2、关于touchdown_feature这部分,您使用CLIP的哪个配置进行提取特征和细节?
© 版权声明
文章版权归作者所有,未经允许请勿转载。如内容涉嫌侵权,请在本页底部进入<联系我们>进行举报投诉!
THE END
- 最新
- 最热
只看作者