Recognition through Reasoning: Reinforcing Image Geo-localization with Large Vision-Language Models

摘要  
以往的图像地理定位方法通常将该任务视为分类或检索问题,往往依赖于缺乏可解释性的黑盒决策。大型视觉-语言模型(LVLMs)的兴起使得能够重新思考地理定位,将其视为基于视觉线索的推理驱动任务。然而,仍然存在两个主要挑战。在数据方面,现有的以推理为重点的数据集主要基于街景图像,场景多样性有限且视角受限。在建模方面,目前的方法主要依赖于监督微调,但这仅在推理能力上带来微弱的提升。为了解决这些挑战,我们提出了一种新的流程,通过使用多样化的社交媒体图像构建一个面向推理的地理定位数据集 MP16Reason。我们引入了 GLOBE,一种面向可定位性评估和优化视觉线索推理的组相对策略优化(Group-relative Policy Optimization for Locatability assessment and Optimized visual-clue reasoning),实现了双目标地理增强(Bi-objective geo-Enhancement),以提升 VLMs 在识别与推理方面的表现。GLOBE 融入了特定任务的奖励机制,共同优化可定位性评估、视觉线索推理及地理定位精度。定性和定量结果表明,在地理定位任务中,特别是在多样化视觉场景下,GLOBE 优于最先进的开源 LVLMs,同时还能生成更具洞察力和可解释性的推理轨迹。

1 引言  

地理位置识别的背景。社交媒体和移动设备上的视觉内容迅速增长,使图像地理位置识别(即确定图像拍摄地点)对下游应用如自主导航[15]和危机响应[18]变得越来越重要。由于实践中元数据(如GPS坐标)通常不可用[19],从视觉内容预测地理位置仍然是一项关键能力。这种需求引发了对图像地理位置识别任务的日益关注[24]。  

现有地理位置识别方法的局限性。传统图像地理位置识别方法主要分为两类:分类和检索。基于分类的方法[63, 48, 43, 46, 13]将地理位置识别视为一个离散预测任务,将每张图像分配到预定义的地理区域或单元中。基于检索的方法[66, 74, 59, 56, 22, 64, 21]通过将查询图像与大型地理标记参考数据库进行比较来估算位置,并在视觉特征、地理坐标或语义标签(例如城市或国家名称)方面检索最接近的匹配。虽然这些方法在标准基准测试上表现良好,但它们通常需要在数百万样本上进行训练,且缺乏可解释性,对其内在推理过程几乎没有提供任何洞见。当LVLMs遇到地理定位。大型视觉-语言模型(LVLMs)[38, 4, 58, 5, 10, 2, 53]的出现为解决图像地理定位问题引入了一种新的范式。这些模型通过大规模预训练编码了强大的多模态推理能力和广泛的世界知识,LVLMs方法[32, 28, 72]已通过多种策略进行探索,包括少样本提示、检索增强生成(RAG)以及监督式微调(SFT)。这些方法能够生成位置预测和解释,从而提供了决策过程更高的可解释性。

基于LVLM的图像地理定位的局限性。值得注意的是,地理定位比典型的视觉-语言任务需要更深入的推理。成功不仅依赖于识别,模型还必须经常利用领域知识,从微妙的视觉线索(如植被、建筑或语言)推断出可能的位置,特别是在缺乏标志性地标的情况下。虽然LVLM提供了一条迈向推理驱动地理定位的有前景路径,但仍然存在两个根本性挑战,如图1所示。在数据方面,现有数据集很少提供明确的推理监督,例如对视觉证据的解释和支持最终位置决策的上下文理由。最近的一些研究[32, 17, 51]试图将推理融入地理定位数据集中,主要依赖于街景图像,这提供了有限的场景多样性和固定视角。因此,基于这些数据训练的模型通常难以泛化到多样化的现实世界视觉条件。在建模方面,大多数现有方法依赖于带有指令风格数据的监督微调,这往往鼓励模式复制而不是发展对视觉-地理关系的扎实理解。在没有验证机制的情况下,这些模型严重依赖相关性而不是结构化推理,从而降低了其在熟悉示例以外进行泛化的能力。

图2:由GLOBE生成的示例推理轨迹,展示了可解释且有视觉依据的地理定位预测。

GLOBE 如何应对挑战。为了解决这些挑战,我们提出了一种新的管道,用于基于推理的地理定位,该管道由两个主要部分组成:(1)从多样化的社交媒体图像中构建一个地理定位数据集,并结合模型生成的推理路径进行增强;(2)使用基于群组相对策略优化(GRPO)的视觉-语言模型微调,以提升推理能力。首先,我们构建了 MP16-Reason,这是一种 MP-16 [30] 的扩展,包含用户拍摄的具有多样化视角和丰富上下文内容的照片。为了引入推理监督,我们提示多个视觉-语言模型 [5, 73, 56] 来提取与地理定位相关的知识,包括可定位性评估、推理轨迹和预测位置。为了确保这些提取信号的可靠性,我们采用了多维验证过程,评估视觉证据与模型生成推理之间的一致性,以及通过自我验证评估不同模型间的一致性,从而筛选出不一致或虚构的输出。最后,我们在精心制作的数据集上,使用 GRPO[50] 微调了一个预训练的LVLM,并以可定位性、视觉对齐和地理定位准确性为任务特定奖励作为指导。最终模型 GLOBE 在地理定位基准测试中实现了开源 VLM 的最先进性能,同时生成了更具解释性和视觉基础的推理轨迹,如图 2 所示。我们的主要贡献包括:  • 基于推理的地理定位数据集:我们构建了 MP16-Reason,一个多样化的地理定位数据集,集成了基于图像的推理监督,支持模型的可解释性与泛化能力。  • 基于 GRPO 的微调:我们开发了一种基于 GRPO 的强化学习框架,通过以可定位性、视觉对齐和地理定位准确性为任务特定奖励,微调 LVLM,从而相比传统的监督微调具有更强的推理能力。  • 开源 LVLM:通过该管道训练,我们开源了 GLOBE。实验证明,GLOBE 在多个地理定位基准测试中超越了最先进的 LVLM,同时生成了更具解释性和视觉基础的推理轨迹。

2 相关工作  

图像地理定位。图像地理定位旨在预测给定图像的地理位置,并在城市分析 [69, 18, 65, 67, 68]、导航 [15] 和地理空间数据挖掘 [29, 40, 34, 45, 23] 等领域具有广泛的应用。随着多模态模型的进步,研究已从分类方法 [63, 48, 43, 46, 13] 和基于检索的方法 [66, 74, 59, 56, 22, 64, 21] 演变为生成式方法 [32, 72, 28],后者旨在通过视觉推理生成位置预测。最近的研究 [32, 72, 28] 指出了分类方法(如粗粒度)和检索方法(如对大型参考数据库的依赖)的关键局限性,从而引发了对生成式替代方法的兴趣。自从 [30] 提出了 MediaEval Placing Tasks 2016 (MP-16) 数据集以来,最近的研究 [72, 28] 继续利用该数据集建模视觉语义与地理位置之间的关系。与传统方法相比,目前的大型视觉语言模型(LVLMs)[38, 4, 58, 5, 10] 通常在大规模数据集上预训练,本质上表现出显著的视觉推理能力。这引发了一个关键问题:是否仍需要依赖数百万标注样本进行监督微调,才能有效地将这些模型适配于特定任务?在本研究中,我们从数据中心化的视角出发,探讨如何利用现有的大规模数据集来构建更高质量的训练数据,以在图像地理定位任务中微调 LVLMs。  

大型视觉语言模型。构建在大型语言模型(LLMs)[8, 55, 12, 3, 7, 20, 25] 进展的基础之上,LLaVA [38] 是朝这一方向迈出的开创性一步,它结合了一个预训练视觉编码器和一个 LLM。研究表明,视觉和文本表示的联合微调显著提高了在诸如基于图像的问答 [42, 70, 41, 31] 等任务中的性能。随后,各种 LVLMs 相继涌现 [4, 58, 5, 10, 2, 53],它们主要在视觉-语言对齐机制及相关的架构权衡方面有所不同。受到这些最新进展的启发,我们的研究进一步探讨了图像地理定位从传统方法向 LVLMs 的转变。具体来说,我们研究了如何有效利用精心编制的数据集来促进这些模型在地理定位任务中的更高效微调。  

视觉推理与验证。随着 DeepSeek [37] 等先进模型的出现,人们对大型语言模型(LLMs)的多模态推理能力寄予了更高期望。大多数推理研究 [27, 49] 专注于数学任务,而对开放性或视觉场景关注有限。因此,这些模型在视觉任务中往往存在臆断问题 [26, 6, 60],会生成看似合理但实际错误的输出。为了应对臆断问题并促进更忠实的推理,最近的研究探索了基于验证的策略 [35, 16, 36, 52, 44],以及通过结构化奖励优化模型的强化学习框架 [50, 71]。基于这些见解,我们在以推理驱动的地理定位任务中采用了 GRPO 作为强化学习框架。

3 GLOBE: 方法论  

我们提出了一种基于原始 MP-16 [30] 数据集的新型流程,旨在将图像地理定位从单一模态视觉识别推进到更强大的多模态推理。实现这一目标不仅需要强大的模型,还需要精心策划的训练数据来有效捕获地理线索。我们的面向推理的地理定位流程包括两个主要组件:数据集策划和模型微调。这一流程分为三个阶段实现:(1) 通过强到弱的蒸馏与验证进行数据集策划(第3.1节),(2) 通过特定任务的监督构建奖励机制(第3.2节),以及 (3) 通过基于GRPO的强化学习进行模型微调(第3.3节)。

3.1 数据集策划:数据蒸馏与验证  

原始的网络规模数据集包含了从各种视角拍摄的多样化社交媒体图像。然而,这些数据集中存在大量噪声 [14, 33, 61, 62, 39],例如缺乏视觉上下文的特写镜头或缺乏可定位线索的普通物体。为了解决这一问题并选择适合下游训练的图像,我们采用多种视觉-语言模型进行知识蒸馏来合成数据,同时通过多维度验证进行数据策划。

多视图-语言模型知识蒸馏。我们利用多个视图-语言模型(例如,Qwen2.5-VL-72B [5],InternVL3-78B [73],以及 GeoCLIP [56])来提取 MP-16 [30] 数据集中每张图片的可定位性判断、视觉线索和地理位置预测,方法参照[32, 9]。如图 3 所示,Qwen2.5-VL 和 InternVL3 生成二元的可定位性决策、逐步推理轨迹以及文本形式的地理位置预测。而 GeoCLIP 则生成纬度-经度坐标以及量化可定位性的置信得分[9]。整体来看,这些性能优异的模型提供了互补信号,我们将其蒸馏为结构化的监督,用于下游数据优化和奖励建模。  

多维验证。在模型推理之后,我们进行多维验证以优化高质量数据,具体见图 3。首先,我们过滤掉具有负向可定位性决策或者低可定位性得分的图像。随后,通过与真实标注数据对比,剔除地理位置预测错误的样本。为了确保从 Qwen2.5-VL 和 InternVL3 蒸馏的知识的可靠性,我们引入了一个自验证步骤,对两种模型的地理位置预测和推理轨迹逐一比对,仅保留那些位置输出一致(例如,预测的城市或国家层面匹配)且推理逻辑链条语义一致的样本。这种跨模型的一致性作为蒸馏监督中的可靠性代理。此外,为了强化推理过程的视觉依据,我们采用一个通用的语义分割模型[11],提取每张图片中的视觉要素类别及其相对比例。然后,我们评估推理轨迹中提及的实体与通过分割模型识别的视觉要素之间的一致性。通过这一采用多阶段验证管道的流程,包括可定位性筛选、蒸馏知识的自验证,以及视觉-语义一致性检查,我们构建了一个强健且值得信赖的数据集,专注于下游任务。  

3.2 奖励构建:任务特定监督  

基于 3.1 节中介绍的优化数据集,我们开发了三个任务特定奖励,以评估地理定位过程中的不同推理质量维度。每个奖励都通过标注监督进行训练,并且集体形成了结构化的奖励信号,这些信号指导着 3.3 节中描述的强化学习阶段的策略优化。  

形式化地表示,设 D = (Ii, yi, gi, ri)N i=1 为一个包含 N 个样本的优化数据集,其中 Ii 为图像,yi ∈ {0, 1} 是一个二元标签,用于指示图像是否可定位,gi 表示真实地理位置,ri 表示其对应的推理轨迹。  

可定位性奖励。我们开发了一种二分类奖励模型,根据图像的视觉内容估计其可定位性。利用精心策划的数据集D,我们训练一个模型Rloc(Ii) ∈ {0, 1}来预测yi = 1的概率,即图像是可定位的。相应地,我们定义奖励为:  
Rloc(Ii) = P(yi = 1 | Ii; θloc),(1)  
其中θloc表示奖励模型的参数。输出得分既可用作强化学习的奖励信号,也可用作图像固有可定位性的软指标。

视觉定位一致性奖励。为了确保模型生成的推理与实际视觉内容一致,我们引入了一种奖励模型来评估实体定位一致性。对于精心策划数据集中的某个样本(Ii, ri),设rˆi表示预测的推理路径。我们从预测推理路径rˆi中提取一组实体Ei = {e1, e2, …, en},以及从图像Ii(通过语义分割)和文本ri(通过实体提取)中提取一组视觉元素Vi = {v1, v2, …, vm}。我们定义一个软匹配函数Match(ej, Vi) ∈ {0, 1},当实体ej与Vi中任意元素近似匹配时返回1,允许部分词汇或语义重叠。视觉定位奖励计算为:  
Rvis(Ii, rˆi, ri) = 1 / |Ei| ∑ |Ei |(j=1) Match(ej, Vi),(2)  
其中Rvis在推理路径中的更多实体被视觉定位时分配更高的分数。该奖励对那些与图像中可见元素不对应的虚构实体进行处罚,从而鼓励基于视觉的合理推理。

地理定位准确性奖励。为了在语义位置层面对模型预测进行评估,我们定义了一种基于分类的奖励,反映预测的国家和城市是否与实际值相符。设gˆi = (cˆi, tˆi)表示图像Ii预测的国家和城市,gi = (ci, ti)是精心策划数据集中的相应真实地理位置。地理定位奖励Rgeo定义为:  
Rgeo(gˆi, gi) = I[cˆi = ci] · α · I[tˆi = ti] + (1 − α),(3)  
其中I[·]是指示函数,α ∈ [0, 1]是一个权重因子,用于控制城市层次正确性的重要性(以国家正确为条件)。该奖励结构抓住了地理标签的层次性。若预测的国家不正确(即cˆi ̸= ci),则分配奖励为0。若国家正确但城市不正确(即cˆi = ci, tˆi ̸= ti),模型获得部分奖励1 − α。只有在国家和城市预测都正确时(即cˆi = ci, tˆi = ti),才会获得满奖励1。这种分层设计鼓励模型首先学习粗粒度定位,然后将预测精确到更细的空间分辨率。

图 4:具有多维奖励设计的GRPO优化框架。对于每个提示,候选输出通过三个任务特定的奖励模型进行评分:Rloc、Rvis 和 Rgeo,这反映了地理定位推理的不同方面。组内优势值指导策略更新,同时DKL惩罚限制与参考模型的偏差。

(1)Locatability Reward(定位性奖励模型)。评估输入图像 “是否具备可定位的视觉线索”,并为模型生成的 “定位性判断” 打分。

(2)Visual Grounding Consistency Reward(视觉 grounding 一致性奖励模型)。确保模型生成的推理轨迹(如 “因图像含红色双层巴士,判断为伦敦”)与图像真实视觉内容一致, penalize(惩罚)“无中生有” 的幻觉推理。

(3) Geo-localization Accuracy Reward(地理定位准确性奖励模型)。评估模型生成的地理定位结果(国家 / 城市)与真值的匹配度,是地理定位任务的 “核心性能指标”。

为 GRPO 的 “组内相对优化” 提供对比样本 —— 通过比较同一任务下不同候选输出的奖励差异,让模型学习 “哪种推理方式 + 定位结果更优”,而非仅优化单一输出的绝对奖励

3.3 模型微调:基于GRPO的强化学习  

根据第3.2节中定义的奖励信号,我们使用GRPO [50]对基础模型进行微调,这是一种专为基于排序的奖励优化设计的强化学习算法,如图4所示。GRPO基于近端策略优化(PPO)[47],通过使用从标量奖励推导的优势估计优化裁剪的代理目标来稳定策略更新。与PPO不同,GRPO引入了组内归一化机制,优化相对偏好。在每个提示的候选组中增强对奖励尺度变化的鲁棒性。设πθ表示由θ参数化的当前策略,B = {(xi, {a(j) i}k j=1)}表示一个批次,其中输入提示xi与从策略中采样的k个候选完成项a(j) i配对。每个完成项a(j) i由一个复合奖励函数评分为:  
r(j) i = λ1Rloc + λ2Rvis + λ3Rgeo, (4)  
其中λ1, λ2, λ3 ∈ [0, 1]是控制三个奖励成分重要性的权重:位置可定位性(Rloc)、视觉锚定一致性(Rvis) 和地理定位准确性(Rgeo)。  
为了鼓励模型在每个组内偏好更高奖励的完成项,GRPO为每个候选项计算了组归一化优势:  
A(j) i = r(j) i − 1 k ∑k l=1 r(l) i, (5)  
该公式在每个提示组内对奖励进行中心化。方程(5)指导策略优化相对排名,而非绝对分数,从而适合奖励尺度不均匀的场景。随后策略通过最大化以下截断代理目标进行更新:  
LGRPO(θ) = E(xi,a(j) i )∼πθref [min(ρ(j) i A(j) i, clip(ρ(j) i, 1 − ε, 1 + ε)A(j) i) − βDKL [πθ∥πref] i], (6)  
其中ρ(j) i = πθ(a(j) i|xi) / πθold(a(j) i|xi)是当前策略与参考策略之间的似然比,ε是截断阈值。系数β控制DKL惩罚项的强度,而πref是用于限制更新的参考策略。实践中,参考策略πref通常初始化为之前的策略快照,从而用于正则化更新并确保训练的稳定性。

4 实验  

我们进行了定性和定量实验,以评估我们精心构建的数据集 MP16-Reason 的有效性以及用于 GLOBE 的基于 GRPO 的训练策略的影响。具体来说,我们检查 MP16-Reason 是否相比传统的仅图像数据集(缺乏推理监督)和街景数据集(视觉多样性有限)能更好地支持地理推理(即通过可解释且视觉为基础的推理来推断地理位置),以及 GRPO 训练是否比监督微调产生更强的推理性能。此外,我们还将 GLOBE 与开源和闭源的 LVLMs 进行比较。  

4.1 实验设置  

数据集。精心构建的数据集 MP16-Reason 被分为两个子集:MP16-Reason-Train 包含 33k 样本,MP16-Reason-Test 包含 12k 样本。MP16-Reason-Train 用于训练 GLOBE,而 MP16-Reason-Test 用于评估所有基线方法。为了进行全面比较,我们还在公开的地理定位基准 IM2GPS3K [57] 上对所有模型进行了评估。  

评估指标。针对 MP16-Reason-Test 和公开的地理定位基准,由于标注格式和预测目标的差异,我们采用不同的评估指标。在 MP16-Reason-Test 中,我们使用三个指标来评估模型性能:(1)城市级准确率,(2)国家级准确率。在公开基准中,我们遵循之前的研究 [56, 22, 28, 32] 并报告预测结果的地理距离与真实坐标在固定阈值(25km、200km 和 750km)以内的比例。由于我们的模型输出离散地点名称(例如国家或城市),我们使用外部工具将这些名称转换为其对应的地理中心坐标以进行评估。  

实现细节。我们基于公开可用的 Qwen2.5-VL7B [5] 实现了 GLOBE,该模型是一种具有强大多模态理解能力的大型视觉语言模型。与使用任务特定的监督微调作为冷启动不同,我们直接基于第 3.3 节描述的 GRPO 框架使用强化学习对模型进行微调。所有训练均使用 MP16-Reason-Train 完成。进一步的详细信息见附录 A.1。

表 1:MP16-Reason-Test 和 IM2GPS3K [57] 上的定位精度。带下划线的结果表示测试集与训练集有重叠;† 表示模型未公开。最佳结果以粗体显示,次优结果以蓝色显示。 

4.2 性能比较  

我们通过定量指标和定性分析评估精选数据集和训练策略的效果,具体详见以下小节。

4.2.1 MP16-Reason:标注优势与场景鲁棒性  

我们从两个角度验证了 MP16-Reason 数据集的贡献。首先,我们检查了推理增强的标注是否比仅依赖图像进行监督提供了实际收益。其次,我们将 MP16-Reason 与现有主要以街景为中心的地理推理数据集进行比较,评估其在多样视觉场景中的泛化性能。

标注优势  
为了隔离推理驱动标注的贡献,我们对 GRPO 训练中使用的奖励组件进行了消融分析。具体而言,我们比较了仅使用地理定位准确性奖励(VGC 奖励)进行训练的模型,该奖励来源于原始标注,如表 2 的第 4 行所示。正如表 1 和表 2 所示,在 MP16-Reason 上训练的 GLOBE 显著优于在 MP-16 上训练的所有变体(表 1-第 1 行、第 2 行和第 3 行)。尽管 PIGEOTTO [22] 在国家层面上优于 GLOBE,但其在城市和地区层面的表现明显落后(表 1-第 4 行)。值得注意的是,G3(GPT-4V)[28] 利用 GPT4V 通过提示集成策略执行增强检索生成(RAG)地理定位,并结合外部知识。尽管具有这一优势,我们的方法在城市层面的表现与 G3(GPT-4V)相当,在地区和国家层面上甚至略有超越,如表 1 所示。这凸显了额外推理驱动标注(如可定位性判断和视觉对齐信号)的重要性,这些标注由多种视觉语言模型提取并用于监督更细粒度的地理推理方面。

场景鲁棒性  
为了评估地理推理模型在非街景场景中的泛化能力,我们将 GLOBE 与使用街景导向地理推理数据集训练的其他 LVLMs 进行了比较(表 1-第 12 行和第 13 行)。虽然这些数据集上训练的模型在街景图像上的表现良好,但它们在更为多样化场景中的泛化性能显著下降(见表 1)。相比之下,MP16-Reason 包含了街景和非街景图像,其在更广泛的视觉环境中均取得了稳定出色的效果,更好地反映了现实世界地理定位任务的复杂性。

4.2.2 GLOBE:模型性能与训练策略分析  

为了进一步评估我们提出的 GLOBE 模型的有效性,我们从两个角度进行了全面实验:外部基线比较与内部策略消融。

第5图:四种不同模型(GPT-4.1 [1]、GLOBE、Qwen2.5-VL-7B [5] 配备 SFT 和 InternVL3-78B [73])在相同输入图像上的推理比较。模型识别出的可信视觉线索在文本中标注。

在外部基准测试中,我们将GLOBE与未使用推理监督的仅视觉模型、通用LVLMs以及在街景推理数据集上训练的特定任务LVLMs进行对比。在内部,我们通过GRPO基础的强化学习对SFT进行基准测试,并在GRPO框架内进行消融研究,以评估不同奖励配置的效果。这些对比分析了GLOBE的性能及其关键设计选择的影响。

**外部基准比较**。我们将GLOBE与三类具有代表性的基准进行对比。第一组包括传统方法,这些方法依赖视觉特征匹配,但不支持推理能力。第二组包括基于通用数据训练的开源LVLMs(例如Qwen2.5-VL [5],InternVL3 [73],Gemma3 [54]以及GPT-4.1 [1]),这些模型预计展现出更广泛且更具普适性的推理能力。第三组包括基于地理推理数据集(面向街景影像)训练的特定任务LVLMs。正如表1所示,GPT-4.1 [1]在此任务上表现出色,但它是闭源的。除了GPT-4.1 [1]之外,所提出的GLOBE在MP16-Reason-Test和公共基准IM2GPS3K [57]上都取得了良好的准确度,同时还生成了更加连贯且可解释的推理轨迹(见表1和图5)。值得注意的是,GLOBE仅利用了来自MP16-Reason的33K样本便实现了这一性能,突出了推理感知监督的效率。

表2:在MP16-ReasonTest数据集上使用Qwen2.5-VL-7B-Instruct模型对训练方法和奖励建模配置进行的消融研究。

内部策略消融。我们进一步研究了不同训练范式和奖励配置对GLOBE性能的影响。具体而言,我们比较了全参数SFT与我们提出的基于GRPO的强化学习方法(参见表2-行2和表2-行8)。对于GRPO,我们通过评估三种奖励组件(可定位性(Loc)奖励、视觉基础一致性(VGC)奖励和地理定位准确性(GA)奖励)的不同组合进行奖励消融实验。结果表明,使用完整奖励集的GRPO在整体性能上达到最高(表2-行8)。移除Loc、VGC或GA奖励中的任意一种都会导致显著下降,这突显了超越位置级别正确性的推理感知监督的重要性(表2-行5、表2-行6、表2-行7)。此外,与SFT相比,GRPO在LVLMs的图像地理定位任务中表现出明显的优势,通过直接优化生成输出的相对质量,提供了改进的一致性和视觉依托(表2-行2对比表2-行8)。

讨论

迈向细粒度地理定位:纯推理的局限性。尽管我们的推理感知框架在国家和城市层面表现出色,但在执行细粒度、坐标级别定位任务时,其效果显著下降。这种局限性源于推理过程的固有特点:预测基于语言、建筑风格或植被等高层次语义线索,这些线索往往缺乏区分相邻位置所需的空间特异性。例如,多座欧洲城市可能共享相似的视觉特征,如地中海风格的建筑、欧盟旗帜的存在或公共标志上的英文,这使得模型仅通过推理难以解决细粒度的地理模糊性。在这种情况下,即使准确的推理也只能缩小到一个广泛的区域,而无法确定确切的位置。这凸显了推理中心地理定位的一项关键挑战:缺乏精确的视觉-地理锚定。为克服这一局限性,未来的工作可探索混合方法,先通过推理约束候选区域,再在该区域内基于局部特征检索实现坐标级别的精确定位。

超越数据规模:推理感知训练的数据效率。我们的实验表明,仅使用33K条高质量的推理感知样本(MP16-Reason)训练GLOBE,其性能可与甚至超越基于数百万通用图文对训练的模型。这表明,对于以推理为中心的任务,有针对性的监督比单纯依靠数据规模更有效。我们的结果表明,将监督与任务特定推理对齐,为LVLMs训练提供了一条更高效的数据路径。

超越地理定位:面向推理驱动LVLM任务的GRPO。我们的研究表明,作为一种训练范式,GRPO特别适用于LVLM中的推理驱动目标。不像SFT通常将输出视为孤立的目标,GRPO通过标量奖励信号直接优化输出的相对质量。这种监督形式使GRPO能够比传统训练目标以更结构化和可解释的方式引导复杂的推理行为。尽管我们的工作专注于地理定位,我们相信GRPO范式能够轻松扩展到其他多模态推理任务,如视觉问答和多模态链式推理生成。

结论

本文通过利用LVLMs,提出了一种新颖的推理驱动管道来解决图像地理定位问题。为了应对现有数据集和训练范式的局限性,我们引入了MP16-Reason,这是一个高质量的数据集,由多样的社交媒体图像构建,并通过自动提取的可定位性标签和推理路径加以丰富。基于该数据集,我们提出了GLOBE,这是一种通过基于GRPO的强化学习训练的LVLM,能够联合改进地理定位的三大核心方面:可定位性评估、视觉线索推理和地理位置识别。与SFT相比,我们的GRPO训练框架通过结构化奖励信号直接优化推理质量,从而在解释性和定位准确性上取得了显著提升。实验证明,仅使用33K数据的GLOBE,其性能可与甚至超越基于数百万样本训练的最先进方法。

© 版权声明
THE END
如果内容对您有所帮助,就支持一下吧!
点赞0 分享
评论 抢沙发

请登录后发表评论

    暂无评论内容