SegEarth-R1: Geospatial Pixel Reasoning via Large Language Model

摘要  
遥感技术已成为理解环境动态、城市规划和灾害管理的关键。然而,传统的遥感工作流程通常依赖显式分割或检测方法,这些方法难以处理需要对空间上下文、领域知识和隐含用户意图进行推理的复杂隐式查询。受此启发,我们提出了一项新任务——地理空间像素推理,该任务允许隐式查询和推理,并生成目标区域的掩码。为推进这一任务,我们构建并发布了首个大规模基准数据集——EarthReason,其中包含5,434个手动标注的图像掩码以及超过30,000个隐式问答对。此外,我们提出了一种简单但有效的语言引导分割基线——SegEarth-R1,该方法集成了分层视觉编码器、大型语言模型(LLM)用于指令解析,以及一个专门为空间相关性设计的掩码生成器。SegEarth-R1设计中结合了领域特定的改进,包括积极的视觉标记压缩以处理超高分辨率遥感图像、描述投射模块以融合语言和多尺度特征,以及简化的掩码预测管道直接查询描述嵌入。大量实验表明,SegEarth-R1在推理和参考分割任务上均实现了最先进的性能,显著优于传统和基于LLM的分割方法。我们的数据和代码将发布在:https://github.com/earth-insights/SegEarth-R1。

图1:语义分割、指代分割和地理空间像素推理的比较。(左)来自LoveDA [67]和RRSIS-D [40]数据集的示例。(右)来自EarthReason数据集的示例。之前的任务受到固定分类体系和显式指令的限制,而地理空间像素推理支持复杂的隐式指令,并要求模型具备推理能力。

1 引言  

通过遥感进行地球观测已成为现代地理空间分析的基石,能够以前所未有的深度洞察环境动态、城市规划和灾害管理 [56, 45]。卫星和航空影像为监测从森林砍伐模式到海岸侵蚀等行星尺度的现象提供了独特的视角。然而,将这些原始像素数据转换为可操作的洞见不仅需要传统的计算机视觉技术,还需要能够推测空间语境、领域知识和隐含用户意图的模型。传统的遥感工作流程主要依赖于显式任务,例如语义分割和指向分割 [44, 8, 85],这些任务在固定分类法中操作,并需要精确的用户指令。虽然这些方法在明确场景中效果显著,但在处理复杂的隐含查询方面则显得力不从心。例如,根据坡度、植被覆盖和基础设施的接近程度识别山体滑坡高风险区域。这类任务要求对异构空间模式、对象关系以及环境元数据进行隐含推理,超出了标准分割或检测管线的能力范围。  
受到这一问题的启发,我们提出了一个新任务,即地理空间像素推理,允许隐含查询和推理,并生成目标区域的掩膜。为了支持这一任务的研究,我们构建并发布了首个大规模基准数据集,称为EarthReason,该数据集包含来自多种分类来源的5,434对手动标注的遥感图像与掩码配对,涵盖28种场景类别,空间分辨率范围从0.5米到153米不等。每张图像都与多个隐性推理问题配对,这些问题要求模型基于背景和领域特定知识推导目标掩码,而非依据显性物体名称。此外,通过加入空目标情况和不同的空间尺度,EarthReason促进模型在复杂的实际遥感场景中进行泛化。 近年来,多模态大语言模型(MLLMs)在自然图像领域中表现出了令人印象深刻的性能,像LISA [26] 和 PixelLM [55]这样的模型利用大语言模型(LLMs) [62, 7, 79] 来解释丰富的文本提示并生成像素级输出。这些框架在诸如推理分割 [26] 等任务中表现出色,此类任务的目标掩码不是直接指定的,而是需要从细微的语言提示中推断出。然而,将这些方法直接转移到地理空间像素推理任务并不简单,因为遥感图像呈现出极端的尺度变化、高密度小物体分布以及超高分辨率,这些特性违背了自然图像的假设。此外,与自然图像不同,遥感查询通常需要空间相关性。例如,识别“非正式定居点”需要检测屋顶材料的不规则性、道路网络的碎片化以及与合法土地使用区域的空间邻接性。 为了解决这些挑战,我们提出了SegEarth-R1,这是一个简单但有效的语言引导分割模型,它集成了分层视觉编码器、用于指令解析的大语言模型(LLM)和为空间相关性设计的定制掩码生成器。此外,某些组件还针对遥感图像的特性进行了调整。具体而言,我们提出了积极的视觉标记压缩方法来处理超高分辨率图像、一种描述投影模块用于融合语言与多尺度特征,以及一个简化的掩码预测管道,直接查询描述嵌入。尽管架构简单,SegEarth-R1在EarthReason和引用分割数据集上实现了先进性能,其表现显著优于传统分割方法和基于LLM的分割方法。 总结来说,我们的贡献如下:

• 我们引入了地理空间像素推理任务,该任务要求模型通过空间背景和领域知识的推理,从隐性自然语言查询中推导分割掩码。

• 我们构建并发布了首个大型基准数据集,包含5,434对图像-掩码配对、28个类别,以及超过30,000对隐性问答对,从而推动地理空间像素推理研究的发展。

我们提出了一种基于LLM的分割模型SegEarth-R1,它在遥感领域中融合了新的分割能力,并包含若干专门针对领域的设计。  
大量实验表明,与传统方法和其他基于LLM的方法相比,SegEarth-R1在推理和指代分割任务上达到了当前最先进的性能

2 相关研究  

2.1 指称分割  

指称分割旨在根据自然语言描述对图像中的目标进行分割,需要语言表达与视觉内容之间的精确对齐。早期方法采用CNN-RNN/LSTM框架 [18, 36, 32, 47, 60, 21]分别提取视觉特征和编码文本查询。然而,由于局部感受野有限和跨模态交互不足 [24],这些方法难以处理复杂表达。为了解决这些问题,注意力机制 [63]成为关键技术 [10, 81, 72, 19, 77, 49, 74, 58]。VLT [10]基于图像与文本交互动态生成自适应查询向量,通过跨模态注意力实现精准定位。LAVT [81]进一步提升这一范式,将分层视觉-语言融合集成到Swin Transformer [43]主干网络中,并通过像素-词注意力在多尺度特征中实现细粒度语义对齐。在遥感领域,为特定实例指定分割可以提高解释效率和用户交互性。近期,Yuan等人 [85]首次将指称分割引入卫星影像。随后,在LAVT架构 [81]的基础上,RMSIN [40]还引入了自适应旋转卷积以应对尺度和方向变化。FIANet [28]和CroBIM [12]提出了精细的跨模态交互以实现特征对齐。RSSep [17]将指称分割重新设计为一个序列到序列的任务,通过预测多边形边界来处理尺度变化和模糊边缘 [38]。然而,现有方法能够有效遵循明确指令进行目标分割,但难以推理隐性意图。在本文中,提出的地理像素推理任务超越了指称分割,通过利用LLM的推理能力来解释细微指令并准确分割指定目标。  

2.2 基于LLM的分割  

LLM的最新发展显著扩展了其在语言推理与像素级分割融合方面的能力 [76, 68, 73, 2, 61, 88, 84, 16]。例如,Florence-2 [76]通过一个包含任务指令的序列到序列框架统一了文本、检测和分割。为了应对真实世界分割场景的复杂性,一些研究集中于架构优化和指令感知式适配。LISA [26, 80]通过引入[SEG]标记连接LLM与分割解码器(如SAM [25]),建立了语言引导的掩码预测范式。随后的研究进一步增强了这一范式:GSVA [75]引入了共享权重的[SEG]标记和[REJ]标记以处理多目标和空目标情况 [35, 55, 90],而GLaMM [53]通过整体分割实现了像素基础的对话功能 [94]。并行探索集中于架构统一——PSALM [92]为多任务分割建立了灵活的输入结构,OMG-LLaVA [89]将通用分割主干网络与LLM结合以实现像素级推理。视频理解的扩展也逐渐出现,例如VISA [78]和InstructSeg [71]整合了时间推理功能。值得注意的是,Text4Seg [27]通过语义描述将分割重新定义为一个文本生成问题,无需额外解码器。在遥感领域,受上述范式 [26, 27]的启发,一些统一模型如RSUniVLM [42]、GeoGround [95]和GeoPix [50]配备了分割功能。然而,这些基于LLM的模型仅关注显性文本引导分割。另外,GeoPixel [57]将基础对话生成 [53]引入遥感,但仍然未提供推理能力。我们的SegEarth-R1同样遵循基于LLM的分割范式,但与以往方法不同。具体而言,SegEarth-R1是首个支持从隐性查询推理目标区域的工作,其组件是专门为遥感领域挑战设计的。  

表1:EarthReason与其他相关数据集的比较。灰色渲染表示自然图像数据集。“Seg”、“Det”、“VG”、“Cls”分别表示分割、检测、视觉定位和分类数据集。

3 基准地理空间像素推理数据集——EarthReason

3.1 与相关数据集的比较  

我们分析了与地理空间像素推理相关的三类任务和数据集,即自然图像推理分割、遥感视觉问答(VQA)和遥感目标指代分割,如表1所示。RefSegRS [85] 和 RRSIS-D [40] 提供了用图像-文本-掩码三元组构成的早期基准数据集。RISBench [12] 是迄今为止最大的 RRSIS 数据集,包含52,472个使用半自动管道生成的定向边界框和像素级掩码的三元组。这些数据集克服了早期以文本为主的数据集(例如 RSICD [46]、EarthVQA [66] 等)的局限性,从而能够对多模态模型进行全面评估。  
相较于之前的目标指代分割数据集,我们的 EarthReason 数据集具有以下特点:  
(1) EarthReason 的掩码标签不是通过查询显式指定,而需要进一步推理以确定目标,这对模型的推理能力构成挑战。  
(2) EarthReason 使用更为原始的数据来源。之前的相关数据集直接转换现有的分割数据集 [1, 67] 或通过 SAM 处理的检测数据集 [86, 31, 11],而我们的 EarthReason 使用分类数据集 [44, 8] 的图像并进行人工标注。这使得 EarthReason 在联合分割任务的联合训练中能够提供更多的数据收益。  
(3) EarthReason 具有更加多样的空间分辨率和图像尺寸,有助于解决遥感图像中固有的目标尺度跨度问题 [56]。与第一个自然图像推理分割数据集 ReasonSeg 相比,EarthReason 的数据量是其 4.46 倍。因此,我们认为 EarthReason 作为遥感领域首个地理空间像素推理数据集,能够对这一任务进行初步探索。  

3.2 数据集生成流程  

我们的基准数据集 EarthReason 是通过以下三个步骤生成的,即图像收集、问答对生成和目标掩码标注。  

图像收集。如上所述,为了避免未来在构建遥感统一分割模型时可能出现的数据泄漏问题,我们从现有的分类数据中收集图像。尽管这增加了标注成本,但也促进了场景的多样性。具体而言,我们首先从 Million-AID [44] 数据集中筛选出28个更适合推理的类别,为每个类别抽取约200张图像。然后,我们发现 Million-AID 图像所包含的实际地理范围是有限的。因此,我们还从 fMoW [8] 数据集中收集了800张图像,以提升模型在复杂场景中的推理能力。此外,为了缓解人为错觉问题 [51],我们额外添加了200张空目标图像(即图像中不包含隐含目标)。最后,剔除了一些质量较低的图像,最终得到共计5,434张图像。  

问答对生成。我们使用 GPT-4o1 构建问答对,考虑到其卓越的视觉理解能力,我们将遥感图像及其对应的场景类别(由 Million-AID 和 fMoW 提供)作为提示的一部分,以生成与图像紧密相关的问题和答案。此类提示的示例见附录 A.1。此外,根据 [26] 的方法,为了使问答具有多样性,我们采用 GPT-3.5 对指导性问题和答案进行改写,如附录图7所示。

目标掩膜标注。与之前使用现成掩膜或边界框的指称分割和推理分割数据集不同,我们从头开始标注图像。具体而言,我们聘请了多名遥感和视觉领域的专家,为每位专家分配几百张图像进行标注,并在标注完成后交叉验证。对于简单的目标(如湖泊),使用SAM-H [25]辅助标注;对于复杂的目标(如风力涡轮机),精确标注多边形的每个点。关于掩膜质量的描述见附录A.1。

数据集统计。EarthReason数据集分为训练集、验证集和测试集,分别包含2,371张、1,135张和1,928张图像。在训练集中,每张图像平均标注了六个问题及三个对应答案。问题的平均长度为20.86个单词,答案的平均长度为26.76个单词。为了评估模型的泛化能力,在验证集和测试集中有意保留了一些语义类别,确保它们在训练中未曾出现。更多数据集细节见附录A.2。

图2: 所提出的SegEarth-R1架构概述。给定一幅图像Xv和一个文本描述Xq,使用分层视觉编码器和一个所提议的连接器来提取和压缩视觉标记。然后,将视觉标记和描述嵌入输入到LLM中进行指令解析和语义关联。最后,描述嵌入直接映射到查询向量,用于空间关联和分割掩膜生成。

4 基准地理空间像素推理方法——SegEarth-R1  
与自然图像相比,遥感图像具有独特的特性,这需要专门的架构设计来进行像素级地理空间推理。在本研究中,我们提出了SegEarth-R1,这是一种简单而强大的地理空间像素推理基准,能够有效利用大语言模型(LLM)的能力,同时结合领域特定的适应性设计。如图2所示,我们的架构包括三个核心部分:用于图像特征提取的视觉编码器、用于指令解释和语义关联的LLM、以及用于空间关联和掩码预测的掩码生成器。每个部分都结合了关键的设计考量,以应对遥感图像的独特挑战。

4.1 分层视觉编码器  
卫星和航拍目标呈现出两个关键挑战:(1)极端的尺度变化,从亚米级目标到公里级地理形态[56],以及(2)高密度分布的小目标需要高分辨率分析[30]。传统的基于ViT的编码器(如CLIP[52]和SAM[25, 54]中的图像编码器)被采用在MLLMs [26, 80, 25, 75]中,但由于其固定尺度特征提取和通过激进的patch合并进行信息压缩的特性,结果并不理想。为减轻这些限制,基于[92],SegEarth-R1采用了改进的Swin Transformer [43]骨干网络,通过逐步构建特征层级架构进行增强。该架构通过控制的下采样操作,在1/4、1/8、1/16、1/32的原始分辨率上生成多尺度特征图vh, h ∈ [1, 4],既保留了小目标的高分辨率细节,又在更深层捕获了上下文语义

4.2 大语言模型与输入模式  
SegEarth-R1 采用 MLLM 范式 [37, 29],通过将视觉标记和文本指令共同嵌入一个统一的 LLM 输入空间来实现多模态推理。与自然影像不同的是,遥感数据具有超高分辨率覆盖 [23, 64],当通过十亿级 LLM 处理时会带来计算挑战。因此,我们希望压缩视觉标记以减轻计算成本,并且仅在 LLM 中进行简单的语义关联。  

4.2.1 视觉标记冗余分析  
图像冗余量化了图像中可压缩的、非信息性数据的比例。为了探讨对遥感图像进行高强度视觉标记压缩的可行性,我们从像素级统计冗余和空间结构冗余两个角度进行了冗余分析。  
• 根据信息论 [59],熵衡量图像的平均不确定性或信息含量,而最大熵对应像素值均匀分布(即无冗余)这一理想状态。因此,从熵的角度来看,图像冗余可以定义为 [14]:  

其中,L 表示不同强度级别的数量(例如,对于8位灰度图像,L = 256),p(l) 表示像素强度值 l 的概率质量函数。  
除了像素级的统计冗余之外,结构自相似性反映了由重复模式(例如纹理、几何特征)引起的空间冗余。为了量化这一点,我们利用结构相似性指数矩阵(SSIM)[70] 来衡量块与块之间的相似性。对于被划分为 N 个块的图像,SSIM 矩阵 M ∈ RN×N 定义为:

其中,μi、σi 分别表示第 i 个块的均值与方差,σij 表示第 i 个块与第 j 个块之间的协方差,C1、C2 为稳定性常数。然后,通过对矩阵 M 的非对角元素取平均值,可以得到结构自相似冗余 Rs:

我们评估了六个基准数据集,这些数据集涵盖了自然图像(COCO [3]、ADE20K [93]、PASCAL [13])和遥感图像(LoveDA [67]、DeepGlobe [9]、xBD [15])的冗余性分析。如图3所示,我们的分析揭示了两个关键发现:1)遥感图像的熵冗余比自然图像高出1.9∼3.3倍,这表明其像素级的可压缩性更强。2)遥感数据的平均自相似性比自然图像高出42.6%,证实了重复纹理和几何图案的较高普遍性。这一见解为遥感图像语义层次理解中的积极令牌压缩提供了依据。

令牌压缩连接器。在现代多模态大模型(MLLM)中,例如Q-Former [29]和MLP [37]的连接器被设计用于将视觉令牌转化为多模态空间。然而,一些研究[4, 82]指出,Q-Former可能导致视觉信息的丢失且训练难度较大。因此,在SegEarth-R1中,我们遵循LLaVA [37]中的MLP连接器形式,使用一种简单但高效的连接器,即堆叠的卷积块和层归一化(LN)。

块用于空间下采样以压缩特征图的大小,LN用于稳定跨模态训练。具体来说,我们的连接器可以表示为:  
vout = (Conv ◦ LN )d(v4), (4)  
其中,◦表示函数组合运算符,d表示堆叠层的数量。

4.2.2 文本指令  
尽管地理空间像素推理所涉及的指令是隐式的,并且包含的词语比指向分割任务更多,但它们仍然保持相同的数据格式。因此,可以通过如下模板轻松将它们转换为问答对:“USER: 这是一张图像<IMAGE>,请根据以下指令进行地理空间像素推理:<DESCRIPTION>。ASSISTANT: <ANSWER>”。对于指向分割任务,指令中的任务名称更改为“指向分割”。

4.3 具有空间关联性的掩码生成  
一些最近基于LLM的分割模型[92, 71]使用Mask2Former [5]范式作为掩码生成器。它们使用T个可学习的掩码token(通常T=100)作为Transformer解码器中的查询,以生成具有相应分数的T个候选掩码,然后通过二分匹配分配给描述嵌入2。与更倾向于根据对象自身属性进行推理的自然图像分割不同,在地理空间像素推理中,模型必须基于图像中的空间布局和对象之间的关联关系进行更多的理解和推断(例如,在图2中识别地震疏散区,这需要分析道路与建筑之间的拓扑关系)。此外,我们认为掩码查询机制[6, 5]在语言引导分割任务中是不灵活且冗余的,我们只需要根据指令生成可变数量的掩码。基于上述,我们提出直接使用描述嵌入作为掩码生成器的查询,并将其与图像的空间特征显式关联起来。  根据用户的指令,描述嵌入的长度有所不同,而在我们的地理空间像素推理或指向分割设置中,分割结果可以通过单一二进制掩码来表示。因此,我们引入了一个描述投影模块(D-Projector),将整个描述转换为一个单一向量,如图4所示。具体来说,描述嵌入被平均化为一个全局向量,然后通过交叉注意力操作与展开的多尺度视觉特征进行交互,并通过跳连接和线性层将其映射为查询向量。接下来,查询向量被输入到Mask2Former的Transformer解码器中,该解码器由堆叠的掩码注意力、自注意力和FFN组成。值得注意的是,由于掩码查询机制已经被移除,生成的掩码数量与查询数量相同,因此不再需要分数预测和二分匹配。最后,预测的掩码通过焦点损失[34]和骰子损失[48]的线性组合进行监督。

© 版权声明
THE END
如果内容对您有所帮助,就支持一下吧!
点赞0 分享
评论 抢沙发

请登录后发表评论

    暂无评论内容