蒙城凯尊酒店
  • 首页
  • 蒙城凯尊酒店介绍
  • 产品展示
  • 新闻动态
  • 新闻动态你的位置:蒙城凯尊酒店 > 新闻动态 > 论文赏读 | CM-UNet: 结合CNN和Mamba的遥感语义分割网络
    论文赏读 | CM-UNet: 结合CNN和Mamba的遥感语义分割网络
    发布日期:2025-04-12 17:40    点击次数:117

     RS   DL 

    论文介绍

    题目:CM-UNet: Hybrid CNN-Mamba UNet for Remote Sensing Image Semantic Segmentation

    论文:http://arxiv.org/abs/2405.10530

    代码:https://github.com/XiaoBuL/CM-UNet

    年份:2024

    图片

    创新点

    提出了一种新的混合架构CM-UNet,该架构结合了CNN和Mamba模型,用于遥感图像的语义分割,通过CNN编码器提取局部特征,利用Mamba解码器整合全局信息。

    CSMamba模块:设计了一个核心的CSMamba模块,使用通道和空间注意力作为激活条件来增强特征交互和全局-局部信息融合。

    多尺度注意力聚合模块(MSAA):提出了一个多尺度注意力聚合模块,合并不同尺度的特征。

    多输出监督机制:在解码器的各个层级引入多输出监督机制,以逐步生成更精确的语义分割结果。

    图片

    数据

    已收录于公众号的遥感语义分割数据集汇总(建设完善中):

    https://github.com/rsdler/Remote-Sensing-Semantic-Segmentation-Dataset

    ISPRS Potsdam 数据集

    德国波茨坦市的高分辨率航空图像。空间分辨率5 厘米,图像尺寸6000 x 6000 像素。包括6类,分别为:建筑物Buildings、低植被Low vegetation、树木Trees、道路Roads、汽车Cars、背景Background。数据划分:数据集包括38张图像,其中23张图像用于训练(排除标注错误的710号图像),14张图像用于测试。

    https://www.isprs.org/education/benchmarks/UrbanSemLab/2d-sem-label-potsdam.aspx

    ISPRS Vaihingen 数据集

    德国瓦因根市的高分辨率航空图像。空间分辨率9 厘米。包括6类,分别为:建筑物Buildings、低植被Low vegetation、树木Trees、道路Roads、汽车Cars、背景Background。数据集包括16个图像块,其中12个用于训练,4个用于测试。

    https://www.isprs.org/education/benchmarks/UrbanSemLab/2d-sem-label-vaihingen.aspx

    LoveDA 数据集

    LoveDA(Land-cover Domain Adaptive)数据集用于跨领域语义分割任务,包含多种场景下的遥感图像,涵盖农村和城市场景。包括7类,分别为:背景Background、建筑物Buildings、道路Roads、水域Water、荒地Barren、森林Forest、农业用地Agriculture训练集包含1156张图像,测试集包含677张图像。

    https://codalab.lisn.upsaclay.fr/competitions/421

    方法

    总体结构

    CM-UNet框架包含三个核心部分:基于CNN的编码器、MSAA(多尺度注意力聚合)模块和基于CSMamba的解码器。

    图片

    CNN编码器

    编码器部分使用ResNet提取图像的多层次特征。ResNet通过其残差连接机制,有效捕捉图像中的丰富特征信息。

    CSMamba解码器

    解码器部分由CSMamba模块组成,该模块结合了Mamba架构和注意力机制,能够有效地捕捉长距离依赖性并进行特征选择和融合。

    CSMamba模块

    并行分支处理:输入特征通过两条并行分支进行处理。第一条分支通过一系列卷积、激活函数和选择性扫描模块来处理特征。第二条分支则通过通道和空间注意力模块进行处理。

    特征融合:两条分支的特征通过元素级乘法进行融合,生成最终输出特征。

    2D选择性扫描模块(2D-SSM):该模块将图像特征展平成一维序列,并在多个方向上进行扫描,捕捉长距离依赖性。这些扫描结果随后合并以恢复原始二维结构,从而捕捉全局上下文信息。

    多尺度注意力聚合模块(MSAA)

    特征聚合:从ResNet编码器的不同层次输出的特征进行拼接。

    空间聚合:使用不同尺寸的卷积核(例如3×3、5×5、7×7)进行多尺度特征融合,然后通过池化操作和卷积进一步处理特征。

    通道聚合:通过全局平均池化将特征进行降维,然后通过一系列卷积和激活函数生成通道注意力图。

    该模块的作用是增强特征的多尺度和多层次信息表达。

    图片

    多输出监督

    在解码器的每个CSMamba模块引入中间监督机制。这种多输出监督机制确保网络的各个阶段都对最终的分割结果有所贡献,使分割结果逐步精细化。

    精度

    精度对比

    Potedam数据集

    图片

    图片

    Vaihingen数据集

    图片

    图片

    LoveDA数据集

    图片

    图片

    消融实验

    图片

    计算复杂度

    图片

    图片

    本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报。

    上一篇:没有了

    下一篇:没有了

    Powered by 蒙城凯尊酒店 @2013-2022 RSS地图 HTML地图