最新刊期

    2024 28 7
    封面故事
    • 序言 AI导读

      [{"title":"序言","chapter":"","content":"在人类不断探索求知的脚步中,卫星遥感技术已经成为我们观测、理解与表达地球的重要工具。在过去的几十年里,卫星信息为人类提供了从太空俯瞰地球的独特视角,不断满足人们对地理测绘、气象环境、海洋监测、农业估产、减灾救灾、城市规划和国防安全等领域的需求。随着遥感卫星信息维度、精度和时效性的不断跃升,用天需求爆炸式增长,但是卫星信息处理存在跨域知识关联难、时空因果分析难、事件推演统一难等问题,使得传统的处理方法不能满足精准应用需求。此时,新一轮人工智能技术发展的浪潮涌来,为卫星遥感信息处理与应用创造了无限可能。感觉、知觉、决策构成了生物智能3大要素,从这3个维度来看,“感觉”即遥感数据获取,“知觉”即图像理解,“决策”即应用服务。当前,卫星遥感的“感觉”系统基本建立并实现了自动化运行,但“知觉”和“决策”系统主要依靠人工完成。在这个充满变革的时代,人工智能与卫星遥感技术的融合,无疑为我们打开了一扇新的大门,拓展对地球的认知边界,加快信息处理的速度,提高数据分析的精度和效率,广阔的应用前景和蕴含的磅礴力量更是不可估量,我们的目标就是使卫星遥感系统无限接近机器智能。为探索人工智能赋能卫星遥感的新机遇、新挑战和新技术,卫星信息智能处理与应用技术重点实验室举办“智天”论坛,围绕“以智赋能、数智强天”主题,汇聚行业领域专家学者的前沿成果、创新观点和实践智慧,集结成此“卫星信息智能处理与应用技术”专刊。专刊从时代挑战、算法模型和应用技术等不同角度,展现了应用人工智能对海量多源异构卫星遥感数据处理分析与应用的思路方法和学术进展,旨在为该方向的技术研讨和学术交流提供参考借鉴。“智能科技引领新时代,高效用天呼唤新突破”。期待智能卫星、智能通联、智能信息处理、智能应用服务等方向吸引更多的学者参与研究,共同推动智能卫星遥感技术发展。","result":"强调了卫星遥感技术在多个领域的重要性,指出了传统处理方法的局限性,并展示了人工智能技术如何为卫星遥感信息处理带来新机遇。文章讨论了生物智能的三大要素——感觉、知觉、决策,并指出当前遥感技术在知觉和决策方面主要依赖人工。作者提出人工智能与卫星遥感技术的结合将极大提升数据处理速度和精度,推动技术发展。专刊汇集了行业专家的前沿成果和创新观点,旨在促进技术研讨和学术交流,以期实现智能卫星遥感技术的突破。","language":"zh"}]
      2024, 28(7): 1657.
      序言
        
      74
      |
      311
      |
      0
      <HTML>
      <网络PDF><Enhanced-PDF><Meta-XML>
      <引用本文> <批量引用> 64961750 false
      发布时间:2024-07-31

      综述

    • [{"title":"巨星座时代遥感卫星应用技术挑战与思考","chapter":"1 引言","content":"遥感卫星是国家空间基础设施的重要组成部分,在有力掌控信息资源主导权,及时把握全球经济、资源、环境、社会发展态势等方面具有重要意义(江碧涛,2022;赵文波 等,2021)。自20世纪70年代以来,中国遥感卫星经历了从无到有、从小到大的发展过程,在维护国家发展利益、支援国民经济建设、减灾救灾等方面发挥了重要的作用。近年来,随着卫星集成制造技术、新型传感器技术、低成本发射技术、空间通信技术、集成芯片技术以及信息处理技术的快速进步,对地探测系统性能不断提升、新型探测手段不断涌现,卫星集成度和技术先进性不断提高。当前,世界各国遥感卫星领域正进入加速升级换代以及稳定补网加强阶段,即将步入以智能化、网络化为主要特征的巨型星座时代。本文通过总结回顾中国遥感卫星系统的发展历程,详细剖析了遥感卫星走向巨星座时代面临的应用技术挑战,包括海量遥感数据处理和遥感巨星座复杂任务控制面临的技术挑战,提出了发展思路,以期为国内遥感卫星应用技术研究提供参考。","result":"介绍了遥感卫星在国家空间基础设施中的重要性,回顾了中国遥感卫星的发展历程,分析了巨星座时代遥感卫星面临的技术挑战,如海量数据处理和复杂任务控制,并提出了发展思路,旨在为国内遥感卫星应用技术研究提供参考。","language":"zh"},{"title":"巨星座时代遥感卫星应用技术挑战与思考","chapter":"2 中国遥感卫星系统发展历程","content":"2.1 模拟技术时代1975年11月26日,中国自行研制的第1颗返回式对地观测卫星成功发射(江碧涛,2022),11月29日,卫星在轨按计划运行3天、完成绕地球47圈任务后,胶片舱成功返回地面。地面系统根据计划拍摄区域,预先设置好相机开机时间和成像参数。卫星采用胶片型棱镜扫描全景相机,按照计划完成拍摄任务记录在胶片上。地面主要处理设备为胶片光化设备,胶片舱返回地面后,地面系统完成药液制备、暗盒开启、导片、接片、试冲、机冲、原底片拷贝、正像洗印等处理,获得了第1批卫星对地摄影图片,用于国土资源普查,开创了中国航天遥感事业的先河。该阶段,星上成像和地面处理主要采用模拟技术,星上用胶片记录图像信息,地面用光化设备冲洗和处理。在此基础上,返回式遥感卫星不断进行技术升级,1985年和1986年又发射了两颗国土资源普查卫星(江碧涛,2022),利用胶片感应成像获取黑白全色胶片和假彩色红外翻转胶片约4000 m,中国遥感卫星逐步进入工程应用阶段,为国土普查、资源勘测、铁路选线等国民经济领域提供了大量卫星遥感数据源。2.2 数字技术时代进入21世纪以来,随着世界航天技术的蓬勃发展,中国遥感卫星整体技术水平明显提高,实现了探测信息记录数字化、数据传输数字化和地面处理数字化,按照卫星规模,可以分为单星阶段、多星阶段和星座阶段。2.2.1 单星阶段1999年10月,中巴合作研制的“资源一号”卫星成功发射(徐文,2011;江碧涛,2022),星上采用5谱段CCD相机、4谱段红外多光谱扫描仪、2谱段宽视场成像仪,用CCD器件取代了传统的胶片记录方式,将数据存储在星上存储系统,卫星过境时通过星地数据传输链路将数据传输至地面接收站,地面处理系统对原始数据进行几何、辐射等校正处理后得到标准遥感数据产品。自此,中国遥感卫星实现了从返回式向传输型的跨越,遥感卫星技术也随之进入了数字技术时代。国家在密云、喀什、三亚等地建成了遥感卫星数据接收站网(李安 等,2021),统筹建设对地观测卫星地面数据处理系统,提升了数据集中处理、存档、分发和服务能力,逐步建立了稳定运行的遥感卫星系统及相应的遥感卫星应用体系。先后成立中国资源卫星应用中心、国家卫星海洋应用中心等,极大带动了遥感卫星在资源、气象、海洋等各行业领域的应用。2.2.2 多星阶段2010年之后,随着高分辨率对地观测系统重大专项(高分专项)、《国家民用空间基础设施中长期发展规划(2015—2025年)》等的全面实施(廖小罕,2021;赵坚等,2022;孙伟伟等,2020;童旭东,2016),中国遥感卫星技术突飞猛进,探测手段不断丰富、探测指标不断提升,逐步实现了由单一光学传感器向多类传感器、由单星向多星联合运用的转变,资源系列、高分系列遥感卫星先后发射,覆盖了全色、多光谱到高光谱,从光学到雷达多种手段,实现了多星联合和协作对地观测。与此同时,遥感卫星应用技术也随之快速发展,国内系统性开展了多星多任务分配、遥感卫星数据精细处理、多源卫星数据融合处理、遥感卫星数据定量化反演等关键技术研究,遥感卫星数据接收、处理、分发、定标场等地面应用设施进一步完善、应用服务水平进一步提升(王冰冰等,2021)。2.2.3 星座阶段随着卫星性能提高和运载技术发展,遥感星座进一步向轻小型卫星组网模式发展,紧跟国外商业遥感星座部署运行,国内的商业遥感卫星星座也迅速发展。长光卫星技术股份有限公司部署了吉林一号光学遥感卫星星座,截至目前共有30颗卫星在轨运行,预计2023年底,可完成138颗卫星部署,具备全球任意地点10 min内重访能力;中国四维测绘技术有限公司于2016年开始部署高景一号卫星星座,目前已完成第一阶段的4颗光学小卫星发射;二十一世纪空间技术应用股份有限公司先后发射了北京二号、北京三号星座。2023年3月,航天宏图信息技术股份有限公司的“女娲”星座首颗4星也成功发射入轨,该星座计划包括44颗雷达卫星和10颗光学卫星。根据组网卫星之间是否存在星间通信,遥感卫星星座可以分为松耦合遥感星座和紧耦合遥感星座。松耦合遥感星座卫星之间不直接进行通信,主要通过合理任务安排进行分工合作观测、获取信息。紧耦合遥感星座卫星之间可利用星间链路进行通信,并基于星上自动处理结果和自主任务规划实现多星之间的观测任务协同。目前在轨的遥感卫星星座,主要是利用轨道设计和多类载荷配置实现协同观测,星上处理、星间通信、自主协同等能力还属于起步和验证阶段。2.3 发展历程总结回顾50多年来的发展历程,中国遥感卫星体系取得了长足发展,走出了一条自主创新、跨越发展道路。一是能力水平由追赶先进向开拓创新发展。截止到2022年底,中国在轨遥感卫星共计200余颗,实现了16 m分辨率卫星数据1 d全球覆盖,光学2 m分辨率数据全球1 d重访,1 m分辨率合成孔径雷达卫星对全球任意地区重访时间为5 h,高分系列卫星与同期在轨的美国WorldView、欧洲“哨兵”等系列卫星水平比肩,最高分辨率达到相近的0.5 m,高分四号是世界上最高分辨率(50 m)的静止轨道遥感卫星,高分三号卫星实现了1 m分辨率C波段SAR成像,是世界上成像模式最多的SAR卫星。中国遥感卫星研制、工程系统总体、卫星公用平台、有效载荷、应用与服务、运行管理等关键技术已步入国际先进行列(赵坚 等,2022)。二是核心技术由合作引进向自主可控发展,探测、传输、处理、应用技术等环节核心技术立足自力更生发展,国产化水平不断提高。卫星遥感数据已基本摆脱对国外卫星的依赖,国产高分辨率卫星数据替代比率已近90%。探测技术不断向高性能、大规模发展,打破了早期主要依靠进口的局面,具备自主研发超大口径SiC反射镜、InGaAs探测器的能力;数据传输技术不断向高通量、大带宽发展,形成成套的X、Ka频段星地数传产品,正在加速发展星间激光通信技术;遥感信息处理技术向一体化、网云化持续发展,高分辨率精细成像、星上处理、智能解译等技术水平持续提升;应用技术不断向精细化、定量化发展,建设了全球首个碳通量数据集,生态环境遥感监测、农情通报遥感数据应用能力不断提高。三是服务模式由试验试用向业务化应用服务发展,服务战略向大众应用拓展。随着遥感卫星系统从机会探测逐渐发展到昼夜持续观测,响应时效性从原来的天级响应提高到目前的小时级。在多个应用部门的支撑下,遥感卫星数据服务模式不断完善,在国家安全、国土普查、环境保护、应急减灾、气象海洋等应用领域提供稳定业务化服务。四是发展机制由政府投资向多元投入发展。政府投入支持持续发展,多元投入促进商业卫星快速发展,融合成效显著。遥感卫星产业市场规模持续增长,如图1所示,2022年中国卫星遥感市场规模高达130.8亿元(数据来自智研咨询发布的《2022—2028年中国商业遥感卫星行业市场全景调查及投资前景预测报告》)。研制主体和运营主体呈现多元化,涵盖了国家部委、省市政府、科研院所、高校、民商企业,卫星设备制造、发射、运用、应用实现了全链条市场化。图12015年—2022年中国卫星遥感市场规模(单位:亿元)Fig. 1The market size of China’s remote sensing satellite from 2015 to 2022","result":"详细回顾了中国遥感卫星系统的发展历程。1975年,中国成功发射了首颗返回式对地观测卫星,采用胶片型棱镜扫描全景相机,开启了航天遥感事业。1985年和1986年,又发射了两颗国土资源普查卫星,遥感卫星技术逐步进入工程应用阶段。进入21世纪,中国遥感卫星技术实现跨越式发展,进入数字技术时代。1999年,中巴合作研制的\"资源一号\"卫星成功发射,采用CCD器件取代胶片记录方式,实现从返回式向传输型的跨越。2010年之后,随着高分专项等的实施,中国遥感卫星技术突飞猛进,实现了由单星向多星联合运用的转变。近年来,遥感星座向轻小型卫星组网模式发展,国内商业遥感卫星星座迅速发展。\n\n50多年来,中国遥感卫星体系取得了长足发展,实现了从追赶先进到自主创新的跨越。在轨遥感卫星数量达到200余颗,分辨率和重访能力达到国际先进水平。核心技术实现自主可控,国产化水平不断提高。服务模式从试验试用发展到业务化应用服务,应用领域不断拓展。发展机制从政府投资向多元投入转变,产业市场规模持续增长。中国遥感卫星研制、工程系统总体、卫星公用平台、有效载荷、应用与服务、运行管理等关键技术已步入国际先进行列。","language":"zh"},{"title":"巨星座时代遥感卫星应用技术挑战与思考","chapter":"3 遥感巨星座应用技术挑战分析","content":"随着卫星制造技术和发射技术的快速发展,遥感星座规模从百余颗向1000余颗扩大,大量卫星组网构建巨型星座已成为国内外天基系统建设的重要发展趋势。美国SpaceX公司“星链”计划目前已发射入轨近4000颗卫星,计划2027年前将达到42000颗卫星,其可见的社会、经济和国防效益,促进世界各国竞相发展巨型星座,同时也引发了对地观测领域新一轮的格局重塑。全球最大的商业遥感卫星公司行星公司(Planet)在持续扩展星座规模的基础上,加紧研发新一代卫星系统,在目前在轨运行200多颗分辨率3 m的“鸽群”(Flock)卫星和21颗分辨率0.5 m的“天空卫星”(SkySat)基础上,2023年开始部署下一代“鹈鹕”(Pelican)卫星星座,由32颗卫星组成,将实现每日提供至少10幅陆地观测图以及30个中纬度地区的图像,分辨率提高到0.3 m。近年来国内国营、民营遥感卫星厂商也持续加大星座建设,加快部署对地观测卫星星座,未来十年内可查的商用遥感卫星计划在2449颗以上,中国遥感卫星数量有望提升一个数量级。网络化和智能化是巨星座的典型特征。网络化的主要特征是“星星联通、星地联通、全网联通”,一点接入、全网皆知,卫星可随时随地通过卫星之间联网将数据及时回传地面;智能化的主要特征是“自主感知、智能处理、主动服务”,实现卫星在轨全智能化的处理和任务规划操作,减轻地面处理压力,专注于应用服务。网络化和智能化的实现并非一蹴而就,需要详细梳理其面临的技术挑战,确定未来技术攻关方向,为中国遥感卫星巨星座时代的到来预置技术、做好准备。3.1 海量卫星遥感数据处理技术遥感数据处理是遥感卫星发挥效益的基础。随着遥感卫星数量从百到千乃至万颗发展,获取的原始数据量也迅速增加,相较于通信、导航等卫星,遥感卫星特别是高分辨率成像卫星,获取的原始数据量非常大。以0.5 m分辨率、30 km幅宽成像卫星为例,每景图像像素数约为60000×60000,考虑图像存储4∶1的压缩比,若每天成像500景,一颗卫星的原始数据量约为每天5000 G,1000颗卫星则为每天5 P,以1 Gbps星地数传速率估算,需要每天120个天线接收波束,给数据接收和传输均带来了极大的压力。高效处理海量原始数据、获取有用信息,是遥感卫星巨星座必须考虑的关键技术难题,应对该难题的一种技术途径是将数据处理环节前置,在星上完成遥感卫星数据处理、无效数据剔除和目标检测识别等任务,降低原始数据下传的压力。本文重点讨论了在轨数据预处理方法和在轨数据智能信息提取方法,分析了完全星上处理存在的问题,提出了地面支持下的星上处理模式。3.1.1 在轨数据预处理在轨数据预处理主要是在星上有限计算资源条件下,实现遥感卫星传感器原始探测数据的高精度误差补偿、辐射校正和几何校正等快速处理,确保数据反映地物场景的真实物理量,为地物信息提取奠定基础。对于高分辨率光学遥感卫星,需要重点关注全色和多光谱遥感影像在轨精密定姿、几何定标、辐射校正以及自动云量检测(王密和仵倩玉,2022;谭凯 等,2016)等技术难题。对于SAR卫星,需要重点解决滑动聚束、条带、扫描等多种成像模式的实时高速成像处理和辐射校正技术,以及斜视成像、干涉测量以及运动目标重聚焦等技术难题。3.1.2 在轨智能解译在轨智能解译主要基于预处理的遥感数据,提取用户关注的地物信息,如机场飞机和海面船只的检测识别、变化检测等。近年来,基于深度学习技术的遥感图像解译技术快速发展(龚健雅和钟燕飞,2016;付琨 等,2023),国内外也开展了大量的基于深度学习的在轨智能解译方法研究并逐步走向工程应用(王密和杨芳,2019;李宗凌 等,2021;李德仁 等,2021),但是从当前技术现状看,星上算力有限(约为地面1/100)、处理算法精度也相对有限。以海上舰船检测识别为例,当前星上处理的检测率约为90%左右,尚不能做到完全满足应用需要。对一些复杂任务场景,如地震灾害等复杂场景智能处理、暗弱特征目标的智能检测等问题仍尚未完全解决。星上智能处理是遥感卫星巨星座实现的重要技术途径,但是完全依托星上智能处理,不下传原始数据,现阶段尚不可行。一是星上目标智能检测识别的结果缺乏真值校验。目前在地面处理系统中,由于遥感图像的智能解译算法精度有限,其处理结果必须要经过经验丰富的判图人员在根据原始数据生产的标准图像产品进行确认。在没有原始数据的情况下,判图人员无法判断星上智能检测识别的切片数据是否存在遗漏。二是缺少真实样本导致星上处理算法无法持续优化。目前以深度学习为主的智能解译算法还需要大量的样本数据进行训练优化,遥感数据的样本特别是专业性的应用样本需要经验丰富的专家在图像上进行标注生成,星上原始数据不下传,将导致难以采集真实样本,进而使得星上处理算法无法增强学习和优化改进。3.1.3 地面支持下的在轨智能解译因此,在将来一段时间内,星上处理无法完全取代原始数据下传,应是地面系统后台支持下的星上处理,如图2所示。星上对原始数据进行预处理、目标检测识别,结果直接分发用户。同时,星上原始数据也要下传地面处理系统,地面系统行业专家依据原始数据得到的标准产品对星上处理结果进行监督评估评估其性能,并持续更新样本库,对星上智能处理模型进行增强训练优化改进,定期生成升级的轻量化模型,通过在轨上注的方式更新星上处理模型,实现在轨处理能力的不断提升。图2地面系统支持下的在轨智能解译模式Fig. 2Space born information intelligent processing mode supported by ground systems在这种处理模式中,需要重点解决的是原始数据抽样下传策略问题,研究如何通过采用延迟回传、随机抽样、动态抽样等策略,在降低原始数据下传需求量的同时,满足支持星上处理优化能力的需要。在此基础上,瞄准未来完全智能化的遥感卫星巨星座,需要国内学者研究解决面向遥感卫星数据智能处理的在轨持续学习理论与方法,逐步摆脱对地面系统的依赖,完全依靠卫星无监督持续自学习、知识积累,实现在轨智能处理、地面抽样监督。综上,在应对海量遥感卫星数据处理问题上,值得关注的技术包括但不限于:遥感卫星数据在轨高精度高效预处理技术、场景自适应智能数据超大压缩比无损压缩与高效恢复技术,基于随机抽样数据的遥感智能解译算法评测与性能优化技术,面向遥感卫星数据智能处理的在轨无监督持续自学习理论与方法等。3.2 遥感巨星座复杂任务管理控制技术遥感卫星任务管理控制主要是把来自多个用户的观测需求,根据不同卫星使用约束和轨道,进行任务安排,生成卫星可执行指令的过程。在多颗卫星的情况下,其核心是解决在多种约束条件条件下,如何对多颗卫星资源进行有效的分配和调度,最大限度的满足多个用户观测需求、实现综合效益最大的问题。随着中国遥感卫星从单星到多星发展,卫星任务控制也经历了从“预先计划”、“精细管控”到“需求驱动”的发展。当前,中国遥感卫星的任务控制主要还是采用地面集中任务控制的模式,由地面管控系统根据所有用户的观测需求、卫星的过境时间、数据传输能力,集中制定每颗卫星的观测计划和数据传输计划,生成卫星控制指令,通过测控链路上注卫星执行。地面集中任务控制的主要问题是星地交互复杂、响应速度慢,在应急救灾等突发任务时,不能及时响应。在遥感巨星座情况下,传统集中式的任务管理面临两方面技术难题:一是随着卫星数量增加,问题复杂度急剧增加,求解空间呈指数型爆炸增长,给星群任务规划求解带来极大挑战;二是随着各类遥感用户增加、需求更加多样化,特别是面向应急遥感需求的动态调整频次增加,进一步加大了动态任务规划难度。三是星间网络快速变化,资源和信息同步共享难,星群资源管理和协同应用难度大。近年来,随着卫星星务管理技术的进步,部分卫星已经具备了一定的在轨任务规划能力,可自主执行一些简单任务,如固定观测任务,在星上存储一个位置列表,卫星每次经过这些区域时,会自动计算成像参数、开机观测。或者是执行简单协同任务,如编队飞行的卫星在执行海上搜救时,前星对搜救区域进行大面积成像和数据处理后,将疑似目标信息传送给后星,后星根据该信息进一步进行高分辨率成像观测。星上自主任务规划可有效提高卫星任务响应速度、降低对测控资源的需求,但也带来自主规划任务可靠性、星地状态同步难等问题。在一些复杂任务中,目前星上任务管理能力还是比较有限。一是复杂动态观测任务中,如抢险救灾任务中,随着地面情况动态演变,关注的重点也在动态变化、不同用户观测需求的优先级也在动态变化,星上难以实时动态调整应对时变的需求。二是复杂协同任务能力有限。协同任务的实现是以星上数据处理为基础的,根据星上智能处理的结果,判断是否获得了需要的观测目标信息数据,并自主决定下一步观测计划。在智能处理结果存在误差的情况下,显然规划的结果也将出现偏差,在多次连续观测的情况下,会出现误差扩散的情况。以前面描述的海上搜救任务为例,第1颗卫星给出的引导信息取决于其星上智能检测结果的准确性,经过多星之间的串联传输之后,最终误差将大到无法观测到目标如图3所示,导致搜救任务失败。图3多星连续观测机会随检测精度变化Fig. 3The opportunity for continuous multi-satellite observations varying with the detection accuracy所以,在一段时间内,遥感卫星星群的任务管控需要采用简单任务星上自主、复杂任务地面控制的模式。地面作为遥感卫星星群的控制中心,为了有效应对复杂动态任务管理需求,应掌握所有卫星的执行任务状态,为此,需要在地面建立在轨卫星的“数字镜像”,实现对其在轨运行状态的同步推演,以便对复杂任务的星地统筹和一体安排,主要需要攻克基于数字孪生的星地一体智能任务管理技术。其中,面向用户优先级相对固定的大众遥感服务,利用分布式卫星智能自主任务规划技术,实现星群“抢单”式任务规划,减少对地面管控的依赖和任务指令上注数据量;面向事件变化快、用户优先级动态调整多的复杂场景,攻克事件驱动的大规模星座快速任务分配技术,依托地面进行星地联合任务管理控制,服务国家应急重大需求。对于复杂星群资源管理,可根据卫星特点、任务能力和连接关系进行分类分组,通过逐层简化,实现资源高效管理和信息同步。综上,在应对复杂巨星座任务管理问题上,值得关注的技术包括但不限于:基于数字孪生的星地一体智能任务管理技术、分布式卫星智能自主任务规划技术、事件驱动的大规模星座快速任务分配技术等。3.3 复杂巨星座自组织技术前面所述为遥感卫星向巨星座发展带来的海量数据处理和复杂任务管理控制挑战,重在解决“量变”的问题。随着遥感卫星向大规模发展,还应当关注复杂巨星座的“群体”效应,或者“集体智能”的涌现,即多个单一功能的个体通过大规模合作实现特定任务,个体之间只进行有限的通信,但是整体上表现出极为复杂的系统行为。类似的情况在自然界中早已存在。如蚁群系统,单个蚂蚁虽然行为非常简单,但是蚁群整体可以在不同的环境下,寻找出到达事物源的最短路径,体现出集体智能行为。人脑系统也是类似的复杂系统,组成人脑的简单个体主要是神经元,大量的神经元聚集在一起使大脑能够思维和学习新事物。从美国“星链”的发展模式可以看出,单星小型化、低成本,星间网络化将是遥感巨星座的重要形态,因此,以多个简单个体通过高效协作实现复杂功能是遥感巨星座的重要技术特征之一。因此,在研究遥感巨星座的过程中,还应从复杂系统的角度进行研究,关注大量简单个体聚合后涌现的执行复杂任务的能力,在不一定存在中央控制的情况下,研究大量简单卫星个体如何自组织产生复杂行为模式、处理信息甚至能够进化和学习,宏观上则体现为一种“有机巨星座”的形态,这比研究提高单个卫星智能化程度更有价值,是实现遥感巨星座“量变”到“质变”的飞跃。如图4所示,其基本内涵是星群中单个简单的“细胞”卫星通过任务分工和局域网聚合实现“组织”星簇,如感知、计算、存储、通信、控制、安全维护等,进而各个“组织”星座进一步通过全局任务协同完成全球遥感探测任务,如海洋航运监管、海上船只搜救、陆上应急救援等。图4有机遥感巨星座概念Fig. 4Organic giant remote sensing constellation concept当前国内在该领域的研究还比较少,值得关注的技术挑战包括星群信息共享与智能涌现技术、星群在轨自主生存技术、有机巨星座自组织技术、星间高速可靠实时信息交互技术等。3.4 遥感巨星座发展阶段总结总体来看,当前中国尚处于星上有限处理、地面为主处理的阶段,正在迈入星上简单控制、地面为主控制的阶段,以星上智能处理能力提升为带动,遥感星座向理想“有机巨星座”发展可划分为3个阶段,如图5所示。第一阶段为智能巨星座1.0阶段,从当前状态逐渐实现星上智能处理、地面支持优化,地面作为星上智能处理的后台,基于下传的原始数据支持星上处理性能的监测、评估和迭代优化,进而实现星上智能控制、地面有限干预;在完全实现星上自主持续学习进化后,可发展到智能巨星座2.0阶段,即星上自主优化、地面抽样监督,星上实现完全可行的智能处理,地面仅作有限的抽样监督即可,并进一步实现星地智能进化、自主任务分配阶段。最终,在突破星群智能涌现技术、自组织技术后,进入智能巨星座3.0阶段,即实现理想的有机巨星座,实现遥感任务自组织、系统自演进能力。图5智能遥感巨星座发展路线Fig. 5The development route of intelligent giant remote sensing constellation从这个发展过程也可以看出,从当前到智能巨星座1.0、智能巨星座2.0初期,都是“天上越自主、地面越复杂”的状态,并不是卫星智能化水平提高后,地面系统就可以少干或者不干,恰恰相反,天上高自主的状态需要一个更加复杂的地面应用系统支持,比以往更加复杂,只有在实现星上自主进化、自我演化后,即达到智能巨星座2.0后期,才可能逐渐实现去地面中心化,达到“天上智能处理控制、地面关注重点服务”的状态。","result":"深入分析了遥感巨星座应用技术面临的挑战,并对未来技术发展进行了思考。随着卫星制造和发射技术的进步,遥感星座规模迅速扩大,形成了巨型星座,这不仅改变了地观测领域的格局,也带来了显著的社会、经济和国防效益。例如,SpaceX的“星链”计划和行星公司的“鹈鹕”卫星星座,都体现了这一发展趋势。\n\n文章指出,巨星座的网络化和智能化是其主要特征,但实现这一目标需要克服重大技术挑战。在海量卫星遥感数据处理方面,提出了在轨数据预处理和在轨智能解译的方法,以减轻地面处理压力并提高数据处理效率。特别强调了星上处理的局限性,如算力和算法精度的限制,以及地面支持在星上智能处理中的重要性。\n\n在遥感巨星座复杂任务管理控制技术方面,讨论了如何有效分配和调度多颗卫星资源以满足多样化的观测需求。提出了基于数字孪生的星地一体智能任务管理技术,以及分布式卫星智能自主任务规划技术,以提高任务响应速度和降低对地面管控的依赖。\n\n此外,文章还探讨了复杂巨星座自组织技术,强调了从复杂系统角度研究巨星座的重要性,以及通过自组织技术实现遥感任务的自组织和系统自演进能力。\n\n最后,文章总结了中国遥感巨星座的三个发展阶段:智能巨星座1.0阶段,星上智能处理和地面支持优化;智能巨星座2.0阶段,星上自主优化和地面抽样监督;以及智能巨星座3.0阶段,实现理想的有机巨星座形态。这一发展过程表明,随着卫星智能化水平的提高,地面应用系统的支持将变得更加复杂,直到星上自主进化和自我演化实现后,才可能逐渐实现去地面中心化。","language":"zh"},{"title":"巨星座时代遥感卫星应用技术挑战与思考","chapter":"4 结 语","content":"中国遥感卫星系统经历了近五十年的发展,取得了长足进步,技术水平总体达到国际先进,目前正处在由多向强的关键时期。面向以智能化、网络化为特征的巨星座时代,我们必须紧紧抓住新阶段发展带来的机遇,充分认清智能化遥感卫星和地面系统的技术复杂性,厘清发展阶段,及早开展智能遥感巨星座系统天地一体的统筹设计和技术布局。开展星间高效高可靠通信技术、基于随机抽样数据的遥感智能解译算法评测与性能优化技术、基于数字孪生的星地一体智能任务规划技术、面向遥感卫星数据智能处理的在轨无监督持续自学习理论与方法、事件驱动的大规模星座快速任务分配技术等关键技术攻关,推动国家遥感卫星发展迈入智能化的新时代。","result":"强调了中国遥感卫星系统近五十年的显著发展,目前正处于由多向强的关键时期。面对巨星座时代,需要抓住新阶段的机遇,认识智能化遥感卫星和地面系统的技术复杂性。文章提出应开展关键技术攻关,包括星间通信、遥感智能解译、星地一体智能任务规划、在轨自学习理论与方法、以及大规模星座任务分配技术,以推动遥感卫星发展进入智能化新时代。","language":"zh"}]
      康利鸿,田菁,江碧涛
      2024, 28(7): 1658-1666. DOI: 10.11834/jrs.20233248
      巨星座时代遥感卫星应用技术挑战与思考
      摘要:从20世纪70年代以来,中国遥感卫星系统经历了模拟式时代到数字式时代的发展,建成了稳定运行的遥感卫星系统及相应的应用体系,当前正在向智能化、网络化的遥感巨星座时代迈进。为了更好地推动国家遥感卫星事业发展,有必要站在当前历史发展的机遇期,详细梳理其面临的技术挑战,确定未来技术攻关方向,为中国遥感卫星巨星座时代的到来预置技术、做好准备。本文通过总结回顾中国遥感卫星系统的发展历程和建设成就,从应用系统建设的角度分析了遥感卫星走向巨星座时代面临的技术挑战,特别是海量数据处理技术和大规模星群控制技术的挑战,分析了完全依靠星上智能处理存在的问题,提出了地面支持下的星上智能处理模式,在分析目前星上自主任务规划能力现状基础上,提出了基于数字孪生的星地一体智能任务管理和分布式智能协同模式。最后梳理了智能遥感巨星座1.0到3.0共3个阶段的发展路线及需要关注的关键技术,为国内遥感领域应用技术研究提供借鉴。  
      关键词:遥感巨星座;发展历程;智能化;网络化;应用技术;星群控制;数据处理;发展规划   
      517
      |
      624
      |
      0
      <HTML>
      <网络PDF><Enhanced-PDF><Meta-XML>
      <引用本文> <批量引用> 45880288 false
      发布时间:2024-07-31
    • [{"title":"遥感基础模型发展综述与未来设想","chapter":"1 引言","content":"近年来,卫星发射数量呈爆炸式增长,根据UCS(Union of Concerned Scientists)发布的卫星数据报告,截止至2023年5月1日,全球有超过1200颗地球观测卫星在轨运行(https://www.ucsusa.org/resources/satellite-database[2023-07-23])。随之带来的是获取大量遥感数据的能力,比如高分系列卫星每天可覆盖全球上亿平方公里区域,下传量达到百TB级。丰富全面的数据可支撑多场景(城市、乡村、山地、海洋等)、多要素(道路、植被、车辆、飞机等)、多时相(不同季节、不同气候等)任务。但在人工专家判读的模式下,遥感数据利用率不到获取量的5%,难以完成多样化任务。近年来,越来越多研究人员从事遥感智能解译相关工作,针对不同平台、目标、任务单独设计专用模型(王威 等,2023;田壮壮 等,2023;李治 等,2023),如“十三五”高分支撑技术体系研制了近千个独立算法模型,提升了应用效益。但这种方式需要投入的成本大,模型无法泛化到其他任务中,在一定程度上造成了资源浪费。因此迫切需要寻找更通用、更泛化的解决途径。基于海量数据的“基础模型+下游任务”模式最近在遥感领域备受关注,已成为一种可行的通用解决方案(Sun等,2023)。基础模型利用大规模无标签遥感数据进行训练,以获取数据中的通用泛化特征,再通过增量学习快速迁移,适应多种场景或任务。在多项工作中展示了该模式的有效性,如在场景分类、目标检测、要素分割、变化检测等遥感国际基准数据集中精度提升显著(Sun等,2023;Mañas等,2021;Li等,2022a),并在重点目标识别、海洋环境监测、国土资源分类、智慧城市建设、公共卫生管理等实际业务中刷新应用效果。但这些遥感基础模型主要着重于分析目标环境中已发生或已具备的信息(感知识别)方面,一般采用的是单时相数据,较少利用遥感时序数据。最近有一些工作也开始探索基于多时相数据的遥感基础模型(Yuan等,2022;Yuan和Lin,2021,Cong等,2022),它们通过学习多时相数据中的时间特征,提升土地覆盖、作物等时序分类精度,但它们依旧侧重于感知识别类方向,无法支撑气象预报、交通预测、生态演化等需要预测目标环境未来状态信息(认知预测)的任务。去年开始,部分研究人员在气象领域提出了气象预测基础模型(Bi等,2022;Chen等,2023),利用欧洲中期天气预报中心提供的ERA5数据挖掘一定时空范围内相关气象要素的变化规律,在风速预测、温度预测、热带气旋预测等方面取得超越传统物理方法的效果。然而这些模型都是针对气象相关任务的,无法适用于遥感领域其他预测方向(如森林退化预测、舰船轨迹预测、河道变迁预测等)。针对以上问题,结合实际应用需求,本文提出新一代遥感通用预测基础模型的设想,通过学习天/临/空/地多源异构多时相数据规律,获取稳定泛化的时序通用特征,以支持多空间尺度、多时间尺度的认知预测任务。图1展示了本文在谷歌学术上检索到与遥感基础模型相关的文章。从近4年来文章数量的变化趋势可以发现,遥感基础模型的文章逐年增加,已成为遥感领域的热点方向,但目前尚未有涵盖多类基础模型的总结分析工作。此外,相比基于单时相数据的基础模型,基于多时相数据的遥感时序基础模型较少,且目前没有关于通用预测基础模型的相关工作。图1遥感基础模型文章统计(此次检索于2023年6月进行)Fig. 1Statistics of related literatures of remote sensing foundation model (The search was conducted on June 2023)本文希望可以为遥感领域做出以下3方面贡献:(1)本文对遥感基础模型论文进行全面、及时的综述,并总结目前工作存在的局限。通过详尽的阐述,读者可以掌握遥感基础模型的大致情况;(2)基于对现状的总结与分析,本文提出了新一代遥感通用预测基础模型的设想,对满足现实应用需求具有实际意义;(3)在设想的基础上,本文进一步探讨了遥感通用预测基础模型亟需突破的技术和未来发展方向,并通过初步实验验证了设想的可行性。","result":"介绍了遥感基础模型的发展背景和现状。随着卫星发射数量的增加,遥感数据获取能力显著提升,但人工判读模式下数据利用率低。为解决这一问题,研究人员开始探索遥感智能解译,设计专用模型提升应用效益。然而,专用模型存在成本高、泛化能力差的问题。近年来,“基础模型+下游任务”模式受到关注,通过训练大规模无标签遥感数据,获取通用泛化特征,实现快速迁移适应多种场景或任务。该模式在多个遥感任务中取得显著效果,并在实际业务中刷新应用效果。但现有遥感基础模型主要侧重于感知识别,较少利用遥感时序数据。一些工作开始探索基于多时相数据的遥感基础模型,通过学习时间特征提升分类精度,但仍无法支撑需要预测未来状态的任务。去年开始,气象领域提出了气象预测基础模型,取得超越传统方法的效果,但无法适用于遥感其他预测方向。针对这些问题,本文提出新一代遥感通用预测基础模型的设想,通过学习多源异构多时相数据规律,获取时序通用特征,支持多尺度认知预测任务。同时,本文对遥感基础模型论文进行全面综述,总结现状局限,提出新一代模型设想,并探讨技术突破和发展方向,通过实验验证可行性。遥感基础模型已成为遥感领域的热点方向,但目前尚未有全面总结分析工作,本文的研究具有重要意义。","language":"zh"},{"title":"遥感基础模型发展综述与未来设想","chapter":"2 遥感基础模型","content":"本文按照使用的数据(单时相/多时相)和应用的任务类型(感知识别/认知预测),将现有遥感基础模型分为3类:基于单时相数据的感知识别基础模型、基于多时相数据的感知识别基础模型、基于多时相数据的认知预测基础模型。本节将依次综述每类遥感基础模型的现状,并总结分析现有方法的局限。2.1 基于单时相数据的感知识别基础模型与自然场景类似,遥感领域的基础模型大多采用自监督学习方式,基于大量未标记的遥感单时相数据,挖掘通用表征信息,并迁移到分类、检测、分割、变化检测等感知识别类下游任务中。本文根据采用的自监督学习方法的不同,将现有基于单时相数据的感知识别基础模型分为基于对比式学习的基础模型和基于生成式学习的基础模型,如图2所示,并在表1中总结了每个模型使用的方法、数据和任务。图2对比式学习与生成式学习的对比Fig. 2A comparison of the contrastive learning and generative learning表1基于单时相数据的感知识别基础模型总结Table 1A gallery of the foundation model of perceptual recognition based on single-temporal data部分遥感基础模型基于对比学习方法,如MoCo(He等,2020;Chen等,2020c;Chen等,2021)、SimCLR(Chen等,2020a;Chen等,2020b)和CMC(Tian等,2020),通过数据增强产生多个样本,再利用对比损失学习通用特征。Jung等(2022)提出一种基于SimCLR框架的遥感平滑表示的自监督学习方法,输入多个图像并对其表示进行平均化操作。Zheng等(2021)结合了MoCo与几何增强等方法,提升了预训练模型的性能。部分研究人员发现可以利用遥感中同一个空间位置在不同时相上的数据属于同一类别的特点,因此设计了多时相视角的对比学习方法。Mañas等(2021)提出季节性对比损失进行遥感基础模型SeCo的训练,并收集大量遥感数据构建了同名数据集,在分类、变化检测等任务中取得显著效果。Mall等(2023)使用时序信息来对比具有长期和短期差异的图像,同时利用卫星图像不经常变化的特点设计了一种新的对比损失CACo Loss,和现有基础模型相比,提高了模型在土地覆盖分类、语义分割、变化检测等方面的准确率。在此基础上,一些研究人员还结合了遥感图像自带的地理信息提升基础模型性能。Li等(2022a)提出遥感地理知识驱动的基础模型训练方法GeoKR,将土地覆盖产品和地理位置视为地理知识,为模型训练提供自监督信息,同时构建了大规模数据集LevirKR支撑模型训练,减轻了场景分类、语义分割、目标检测等下游任务的标注负担。GeCo(Li等,2022b)方法利用地理先验知识指导并纠正表示学习过程,保证自适应校正过程的正确性,消除偏差影响,在场景分类、语义分割、目标检测等任务中取得了更好的效果。除此之外,还有一些工作引入了其他数据进行对比学习,如多光谱、SAR等多模态数据、音频数据等。Jain等(2021)将多光谱和SAR图像视为一张图像的不同增强视图来学习它们之间的相似性,以此获得更好的一致性表示。Heidler等(2023)使用配对的图像和音频数据进行训练,利用图像和音频数据间的对应关系,学习遥感场景中的关键属性,在航拍场景分类、航拍语义分割、视听场景分类、跨模态检索等任务中进行实验,证明方法的有效性。随着基于Transformer的生成式学习方法在计算机视觉领域基础模型方面取得巨大的成功,越来越多遥感领域的基础模型使用生成式学习,取得了较好的效果。Sun等(2023)率先提出RingMo遥感基础模型框架,构建了百万级大规模遥感数据集,并设计了针对复杂场景内小型密集物体的基础模型训练方法。在场景分类、目标检测、语义分割、变化检测等任务的国际标准数据集中性能提升显著。Scale-MAE(Reed等,2023)以已知比例掩码的输入图像来训练基础模型,在整个预训练过程中明确学习不同已知尺度的数据之间的关系,在8个遥感数据集上实现了下游任务的效果提升。Wang等(2022a)基于ViT提出针对多样遥感任务的基础模型RVSA,使用旋转可变尺寸窗口注意力来适应遥感图像的大尺寸和目标的任意方向,显著提高基础模型在分类、检测和分割等任务的准确率。Cha等(2023)构建了遥感领域十亿级基础模型,发现模型性能和数据效率随着参数数量的增加而提高,在旋转目标检测和语义分割等下游任务中实现了先进的性能。CMID模型(Muhtar等,2023)以自蒸馏的方式将对比式学习与生成式学习结合来学习全局和局部表示,CMID还可与CNN、ViT兼容,在多个下游任务中具有更好性能。Mendieta等(2023)以构建高效的遥感基础模型为立足点,首先建立了小型但多样化的数据集GeoPile,然后提出多目标持续预训练范式,兼顾蒸馏学习和生成式自监督学习,在利用最小资源的同时显著提升模型性能。2.2 基于多时相数据的感知识别基础模型近年来随着遥感技术发展,能够获取到时间间隔更短、空间分辨率更高的地球观测数据,针对同一地理区域连续获取的数据可转化为时序遥感数据(Gómez等,2016),此类数据包含丰富的地表状态和动态演变信息,常用来对局部或大范围的地表覆盖进行研究(Ienco等,2019)。和基于单时相数据的感知识别基础模型类似,自监督学习方法常被用于时序遥感数据训练,并应用于土地覆盖、作物等细粒度分类任务中,表2对常见的基于多时相数据的感知识别基础模型使用的数据和任务进行了总结。SITS-Former(Yuan等,2022)基于Transformer利用自监督学习通过缺失数据补全任务在大量未标记的Sentinel-2多时相数据上进行训练。给定一个不完整的多时相数据,部分数据被随机掩码,模型被要求根据未掩码数据的信息恢复掩码数据,因此模型可从数据中捕获高级的空间和时间依赖性,学习到判别性特征。SITS-Former将训练好的模型参数迁移到作物分类任务中获得显著的性能增益。表2基于多时相数据的感知识别基础模型总结Table 2A gallery of the foundation model of perceptual recognition based on time series data与此同时,基于多时相数据的感知识别基础模型不断扩展应用于其他下游任务。针对时序遥感数据标记少的问题,Yuan和Lin(2021)提出SITS-BERT模型,利用多时相数据固有的时间结构学习相关的通用时间特征,进行作物分类和土地覆盖研究,提高了模型的泛化性能并减少过拟合的风险。Cong等(2022)提出一种基于MAE(He等,2022)的多光谱多时相基础模型SatMAE,通过跨时间独立掩码方法充分利用时序信息,同时将多光谱数据编码为带有不同光谱的位置嵌入的频谱组,最后将训练好的基础模型参数迁移到土地覆盖分类和建筑物分割下游任务中,均取得了良好的结果。Tseng等(2024)提出一个专为地球观测多时相数据设计的基于Transformer的轻量级基础模型,通过自监督学习方法充分利用多传感器时间序列数据的结构,显著减少基础模型训练所需的参数量,并泛化于作物分割、燃料湿度回归、树木分类、土地覆盖分类等任务中。2.3 基于多时相数据的认知预测基础模型最近认知预测类任务开始受到研究人员的关注,因此也出现了一些基于多时相数据的认知预测基础模型。但目前,认知预测基础模型大多服务于气象预报应用,通过挖掘一定时空范围内相关气象要素的时空动态特征,了解气象要素变化规律,实现气象预测。当前已知的预测基础模型包括FourCastNet、盘古—气象、GraphCast、风乌—天气,表3对上述模型进行了详细介绍和说明。表3基于多时相数据的认知预测基础模型总结Table 3A gallery of the foundation model of cognitive prediction based on time series data2022年2月,NVIDIA提出了FourCastNet(Pathak等,2022)天气预测模型,使用了64个Nvidia A100 GPU进行训练。模型结合了ViT(Dosovitskiy等,2021)和傅里叶神经网络(Guibas等,2022),模型的预报分辨率提升到了和物理模型相比拟的水平,速度与物理模型相比快了多个数量级,但在部分气象下游任务上精度仍低于传统物理模型。盘古—气象(Bi等,2022)基础模型是2022年11月由华为提出的,使用了192个NVIDIA Tesla-V100 GPU进行训练,他们提出3D Transformer方法,输入和输出均为指定时间点的三维天气状态,并结合层次化时域聚合算法最小化迭代误差,他们的长期预报精度首次全面超过传统方法,并将时间效率提升至秒级。2022年12月,ECMWF提出一种基于图神经网络的自回归模型GraphCast(Lam等,2023),训练中模型使用了32台Cloud TPU v4,将原始经纬度网格映射到多网格上学习特征,通过深度图网络有效传递信息,实验结果证明,在中期天气预报中,模型性能优于欧洲气象中心的高精度预报。2023年4月,上海人工智能实验室提出风乌—天气(Chen等,2023)基础模型,采用多模态神经网络,结合多任务自动均衡权重策略,加强变量间协同优化作用,并提出了“缓存回放”策略,减少自回归预测误差,提高长期预测的性能,模型训练使用了32个Nvidia A100 GPU进行训练,在预报精度、预报时效和资源效率3方面均有了显著提升。2.4 现有遥感基础模型的局限近年来,遥感基础模型发展迅速,在众多应用任务中展示了显著的效果,但在认知预测方面还处于起步阶段,在数据、方法、任务上还存在一些局限:(1)数据方面:当前遥感基础模型对于单时相数据的利用较为全面,不止从卫星、无人机等多个平台中获取数据,还涵盖了可见光、SAR、多光谱等多种模态。然而多时相数据的应用较为局限,目前只包含了从卫星平台获取的时序图像和气象数据,其他平台和模态的数据没有被充分利用。(2)方法方面:针对时序认知预测的遥感基础模型大多采用Transformer架构,只有一个模型采用图网络。Transformer受限于输入长度的问题,难以扩展到遥感大图中。图网络虽然可以建模多尺度关系,但是训练一个大规模图网络难收敛,且容易过平滑(Ying等,2021)。遥感认知预测任务一般需要观察大场景中多个目标间的关联关系,且多时相数据体量大,模型训练困难。目前尚未有基础模型根据遥感特点突破常见模型架构。(3)应用方面:地球上的要素不断变化,因此遥感时序认知预测应用很广泛,包含多样场景(城市、森林、河道、气象等)、多类任务(轨迹预测、要素演化、数值预测等),然而目前遥感预测基础模型局限在气象领域,只能泛化到风速、温度、湿度、热带气旋等方面,缺少通用预测基础模型,无法适应多样场景和多种任务。","result":"综述了遥感基础模型的分类、现状和局限。现有模型根据使用的数据类型和应用任务分为三类:基于单时相数据的感知识别模型、基于多时相数据的感知识别模型和基于多时相数据的认知预测模型。单时相数据模型主要采用自监督学习方法,通过数据增强和对比损失学习通用特征,应用于分类、检测等任务。多时相数据模型利用时序信息,通过自监督学习捕获空间和时间依赖性,用于土地覆盖分类等细粒度任务。认知预测模型主要服务于气象预报,通过挖掘时空动态特征实现预测。\n\n单时相数据模型中,对比式学习模型如MoCo、SimCLR等通过数据增强学习特征,生成式学习模型如RingMo、Scale-MAE等利用Transformer架构学习表示。多时相数据模型中,SITS-Former、SITS-BERT等利用自监督学习补全缺失数据,SatMAE等编码多光谱数据学习时序信息。认知预测模型如FourCastNet、盘古—气象等采用ViT和Transformer架构,结合气象数据实现高分辨率预测。\n\n然而,现有遥感基础模型在数据、方法和应用方面存在局限。数据方面,多时相数据应用较为局限,缺少对其他平台和模态数据的利用。方法方面,Transformer架构受限于输入长度,图网络训练困难,缺少根据遥感特点的模型架构。应用方面,预测模型主要局限于气象领域,缺少通用预测模型适应多样场景和任务。未来研究需突破现有局限,发展更适应遥感特点的基础模型。","language":"zh"},{"title":"遥感基础模型发展综述与未来设想","chapter":"3 面向多域异构多时相数据的新一代通用预测基础模型","content":"基于第2节对现有遥感基础模型的总结与分析,本节提出新一代遥感通用预测基础模型的设想,并进一步讨论了在该设想下,亟需研究人员探索的未来方向。3.1 核心思路构建面向遥感多时相数据的新一代通用预测基础模型,共享学习多域异构多时相数据,支持多空间尺度、多时间尺度的预测任务,如图3所示。图3面向多域异构时序数据的遥感通用预测基础模型Fig. 3Remote sensing prediction foundation model for multi-domain heterogeneous time-series data具体来说:(1)数据方面:涵盖天/临/空/地多平台、轨迹点/时序图像/视频/气象数据等多类型、可见光/SAR/多光谱等多模态、厘米级到百米级多分辨率的遥感多时相数据;(2)方法方面:结合图网络和Transformer模型的优势,设计基础模型全新架构,具备对遥感大场景中多目标交互的长时序稳定预测能力,同时扩大模型容量,提升泛化效果;(3)应用方面:通用预测基础模型可应用到多空间尺度(目标级、要素级、区域级)、多时间尺度(近实时、小时级、长时序)的多样化认知预测任务中。3.2 探索性方向新一代遥感通用预测基础模型的核心是打通多域异构多时相数据输入及多时间/空间尺度任务输出的信息通路,通过提取稳定泛化的时序超像素特征,实现对未来状态的精准认知预测。为了实现以上目的,本文提出多域时序数据表征、稳定规律特征提取、目标环境交互影响建模以及多任务互促推理四个探索性方向,以供从事遥感基础模型的研究人员参考。(1)多域时序数据表征。为了在遥感领域实现通用认知预测的目的,需要兼容多域异构多时相数据,但这些数据在时间采样间隔、空间分辨率、数据维度等多方面均有显著差异。时间采样间隔上,普通视频的帧率为24帧/s,即每帧跨度约0.04 s;而大部分卫星受限于重访周期、云层干扰等原因,其获取清晰数据的时间跨度以小时/天为计量单位。在空间分辨率上,从厘米级的无人机数据到分辨率数米的卫星数据,其囊括的范围也从几百平方米跨越到全球尺度。在数据维度上,输入多时相数据的形态各异,如一维轨迹、二维气象数据、三维时序图像等不同维度的数据。因此,如何对多域异构多时相数据进行统一处理以实现多样特征的自动化提取是需要探索的方向。针对以上问题,本文提供一些可能的解决思路以供研究人员考虑。针对时间采样间隔不一致的问题,可通过数据相邻帧的相似度衡量时序冗余度,并基于此为时序冗余度高的数据选取更高的掩码比率,使得模型能够处理不同时间间隔的数据,并具备对不同时间尺度数据的时空预测能力。针对空间分辨率不同的问题,可采用金字塔结构进行空间多尺度特征提取。金字塔是数据空间多尺度表达的一种,它实际上是一张图片在不同尺度下的集合。通过图像金字塔结构统一不同分辨率的数据特征到同一尺度,达到不同分辨率数据的统一处理。针对多时相数据维度不同问题,使用不同模态专家学习一维、二维、三维数据独有的特征,再使用“掩码预测”方式统一不同数据的训练策略,使得模型的训练过程更加简单高效。(2)时序超像素引导的稳定特征提取。时序预测涉及在空间和时间维度上对未知系统状态的预测,需要对各种变量间的时空依赖进行建模。目标与环境的行为活动、变化过程遵守着显性或隐性的规律,以往传统模型只能基于显性规律人工建模物理方程,因此面临多重挑战。例如著名的三体问题,每一个物体在其他两个物体的万有引力作用下的运动方程可以表示成6个一阶的常微分方程。因此,一般三体问题的运动方程可以用18个微分方程描述。如果想要准确预测3个物体的未来状态,必须求解18个方程才能得到解析解。在这个例子中,通过观测而获得三体状态(位置、速度、加速度)的信息满足万有引力定律以及牛顿第二定律。上述例子是在理想环境下的建模,已被证明无法获得解析解,只能通过数值模拟进行预测。而遥感场景中的目标及环境变化更加复杂多变,其时序变化遵循多重规律,并且许多为隐性规律,难以通过显式的方程进行建模,因此传统预测模型难以从复杂多变的表象中挖掘隐藏在内部的隐性规律,获取遥感数据中的稳定特征。数据驱动的深度学习方法在一定程度上解决了复杂场景中高维、非线性规律、隐变量的拟合问题,然而基于单一数据源的预测基础模型只能实现单方面任务的认知,其所存储的稳定特征都是有限的,难以提取复杂场景下海量变化要素的规律特征,无法完成多样化预测任务。针对以上问题,本文提出时序超像素概念。时序超像素定义为:在复杂变化场景中表现出稳定规律且具有关联约束的时序像素特征集合。虽然像素在变化,但变化规律是稳定的,时序超像素是可通过函数建模的时序像素集。通用预测基础模型需要从复杂、随机的变化中学习稳定和关联的变化规律,获取时序超像素特征,并用其进行预测。通过多维大数据+通用基础模型的模式可提取稳定的超像素特征,大量时序超像素特征被提取和存储到基础模型的网络中,由此实现多样化任务的精准预测。同时,现有基础模型通常缺少预测的不确定性建模,可利用时序超像素整合数据驱动和物理模型驱动方法促进可解释性,降低预测误差,提高预测准确率。(3)目标环境交互影响建模。在遥感数据中目标的行为活动规律预测是人们关注的重点之一,目标的行为活动和时序变化除了受到物理定律的约束之外,还会受到目标间、目标与环境间的交互影响。目标间在时间维度上存在相互依存的关系,使得模型在捕获长期依赖关系时面临与真实关联偏移逐渐扩大的情况,使得演化计算结果随时序的延长而误差逐渐增大。此外目标受到周围地形、天气等变化环境的影响,目标行为表现出突发性强、行动难追踪、交互变化快等特点,导致目标行为具有随机性,在此情况下长时序预测结果会产生较大误差。针对上述问题,本文考虑综合利用图网络和Transformer增强目标—目标、目标—环境间的多样化信息交互能力。利用图网络的谱性质设计算法对复杂网络中的关联关系进行较准确的挖掘,进而嵌入Transformer架构实现大规模网络训练,可考虑两方面的结合方式。一方面是在位置嵌入基础上,引入图网络的拓扑结构,以衡量节点间的关联关系。另一方面在Transformer的多头注意力基础上,加入图网络节点间特征和连接节点的边特征的结构信息修正注意力分数。在此基础上,本文还考虑对图网络与Transformer结合的方式进行拓展,提出超图Transformer结构。超图与简单图不同,对于一个简单图,其每条边均与两个顶点相关联,即每条边的度都被限制为2。而超图则允许每一条边的度为任何非负整数,因此超图可以处理多元关系和高阶关系。遥感场景中目标-目标、目标-环境间的相互关系是多元的,超图能够更好地建模这种多对多的关系,在目标环境交互预测中表现出更好的性能。(4)异构预测任务互促推理。遥感时序预测应用包含了目标轨迹预测、要素演化预测、数值趋势预测等任务,各任务间差异大,具有不同时间尺度、不同空间尺度的特点。当前遥感预测基础模型都是针对气象预测单一应用场景的模型,无法支撑对跨场景多任务复杂情况进行分析与预测。此外,现有方法往往忽略对预测任务间特征关系的显式建模,任务间特征差异明显,梯度竞争严重,导致多任务处理能力受限,尤其是在序列化任务流中,存在严重的灾难性遗忘问题。本文提出的面向时序多任务的通用预测基础模型需要增强任务间的关系,优化网络持续扩展策略,引导模型动态更新过程中的网络参数更新方向。通过对任务特征关系的建模,利用任务的互补信息实现相互促进。通过适当的训练,深度神经网络中由低到高的隐层充当着复杂程度不断增加的特征变换,这些变换共享不同任务中共有的隐藏特征。尽管对数域的线性分类器对不同的任务在必要时可以分开,但特征转换仍然可以在跨任务之间进行共享。具体来说,可先将数据特征映射到同一个向量空间创建一个联合的数据嵌入空间,使得多个任务可以共享特征空间中的特征,实现任务间共性和差异的显式建模,提高多任务推理预测精度。3.3 初步实验进展本团队已开展新一代遥感通用预测基础模型的技术攻关,利用3.2节提出的思路,采用简单直接的方式初步构建了通用预测基础模型的原型架构。首先利用不同模态数据专用的时序特征提取模型将输入数据转化为模型可计算的特征序列,然后对特征序列进行随机掩码后通过参数共享的多维信息交互Transformer基础模型学习稳定的超像素特征,进而利用之前时刻数据预测掩码的未来时刻数据,达到通用预测基础模型融合训练的目的。最后利用训练好的基础模型参数在多个预测任务中进行微调实验,取得一些实验进展。用于预训练的多域时序数据来自天/临/空/地多个平台,涵盖时序图像、视频、轨迹点等多个类型,共包含11359200帧数据。模型共训练200个epoch,优化器选用AdamW,初始学习率设置为0.0005,衰减策略为余弦衰减。通过以上训练设置得到的预测基础模型具有通用泛化的特点,适用于多种下游任务。本文在多类遥感认知预测下游任务上进行实验,包括移动目标场景预测、降水即时预测、云图预测,选用的数据集分别为MOR-UAV、HuaBei2021、CloudCast。对于每个数据集,根据数据集的常用设置划分训练集与测试集,MOR-UAV、HuaBei2021、CloudCast数据集的训练集比例分别为85%、90%、25%,SOTA方法与本文方法都是采用相同的训练集与测试集。其中移动目标场景预测采用MOR-UAV数据集,该数据集中包含30个无人机视频,移动目标包括小型汽车、重型车辆等,场景涵盖停车场、十字路口等,因此移动目标的运动会受到场景环境的影响。该任务是个短时预测任务,利用前面帧的视频数据预测未来帧。降水即时预测采用的是HuaBei2021数据集,该数据集包含2021年6月至8月华为地区的雷达回波数据。该任务根据雷达探测得到的回波数据来确定降水的变化情况,并预测数小时后雷达回波的状态。云图预测采用的是CloudCast数据集,该数据集共包含11种不同的云类型,在2017年—2018年期间每15 min记录一次。该任务通过给定过去一段时间的云图,学习当前时间段的时空动态预测未来一段时间同一区域的时序云图。具体实验结果如表4所示。注:“↑”表示数值越高越好,“↓”表示数值越低越好。表4认知预测任务定量精度对比Table 4Quantitative comparison of remote sensing cognitive prediction tasks从表4可以看出,本文设计的遥感通用预测基础模型在3类认知预测下游任务中,无论是精度类指标还是误差类指标,都取得比当前最佳(SOTA)方法优异的性能。图4展示了移动目标场景预测的可视化图,尽管SOTA方法(Wang等,2022b)可以提取时空特征,但预测结果比较模糊,特别是遥感场景中的小型目标。相比之下,本文方法预测得到的预测模型结果更清晰,更接近真值。图5展示了降水即时预测的可视化图,图5中SOTA方法(Shi等,2015)输出的预测结果不仅模糊,而且与真值不一致,而本文方法给出了更清晰、更准确的结果。图6展示了云图预测的可视化图,可以看出本文方法的预测结果比SOTA方法(Wang等,2022b)更接近真实值,预测结果相对清晰。但目前训练出的预测基础模型还存在一些缺陷,一方面是部分任务的预测结果相对模糊,另一方面是目前模型的预测能力随着预测时间的推移而减弱,未来本团队将通过继续改进解决这些问题。图4移动目标场景预测可视化结果Fig. 4Qualitative visual comparison of moving object scenarios prediction tasks图5降水即时预测可视化结果Fig. 5Qualitative visual comparison of radar echo extrapolation tasks图6云图预测可视化结果Fig. 6Qualitative visual comparison of cloud forecasting tasks以上展示了目前在新一代遥感通用预测基础模型设想下,进行部分技术攻关后取得的初步进展,未来本团队会继续突破相关技术,在更全面的认知预测任务中获得明显能力增益。","result":"提出了面向多域异构多时相数据的新一代遥感通用预测基础模型的设想,旨在支持多空间尺度、多时间尺度的预测任务。模型核心思路是共享学习多域异构多时相数据,设计了结合图网络和Transformer模型优势的新架构,以实现对遥感大场景中多目标交互的长时序稳定预测,并提升模型泛化效果。应用方面,模型可适用于目标级、要素级、区域级等多空间尺度和近实时、小时级、长时序等多时间尺度的多样化认知预测任务。\n\n探索性方向包括:多域时序数据表征,提出解决时间采样间隔不一致、空间分辨率差异和多时相数据维度不同的方法;时序超像素引导的稳定特征提取,定义时序超像素为稳定规律且具有关联约束的时序像素特征集合,通过数据驱动的深度学习方法挖掘内部隐性规律;目标环境交互影响建模,利用图网络和Transformer增强目标间、目标与环境间的信息交互能力;异构预测任务互促推理,通过任务特征关系的建模实现任务间的相互促进。\n\n初步实验进展展示了利用提出思路构建的通用预测基础模型原型架构,通过多模态数据特征提取、多维信息交互Transformer基础模型学习,以及在多个预测任务中的微调实验,取得了优于当前最佳方法的性能。实验包括移动目标场景预测、降水即时预测和云图预测等任务,展示了模型的通用泛化特点和在不同遥感认知预测任务中的应用潜力。尽管存在预测结果模糊和随时间推移预测能力减弱的问题,但团队将继续改进模型以解决这些问题。","language":"zh"},{"title":"遥感基础模型发展综述与未来设想","chapter":"4 结论","content":"具有通用泛化能力的基础模型对于遥感智能解译的进一步发展至关重要。本文通过整理基于单时相数据的感知识别基础模型、基于多时相数据的感知识别基础模型、基于多时相数据的认知预测的基础模型的研究现状,为研究人员提供该领域的最新进展综述。在此基础上,通过分析当前遥感基础模型在数据、方法、应用上存在的局限,提出新一代遥感通用预测基础模型的设想,并进一步明确该设想下亟需突破的4个探索性方向并进行初步实验。后续工作将在多域多时序数据表征、稳定规律特征提取、目标环境交互影响建模以及多任务互促推理方面进行针对性的关键技术突破,同时继续探索更为通用的遥感基础模型,将感知识别与认知预测整合到一个架构中。","result":"强调了遥感智能解译中基础模型的通用泛化能力的重要性,提供了基于不同数据类型的遥感基础模型研究现状的综述,并分析了现有模型的局限性。提出了新一代遥感通用预测基础模型的设想,明确了四个探索性方向,并进行了初步实验。后续工作将专注于多域多时序数据表征、稳定规律特征提取、目标环境交互影响建模和多任务互促推理的关键技术突破,以及探索更通用的遥感基础模型架构。","language":"zh"}]
      付琨,卢宛萱,刘小煜,邓楚博,于泓峰,孙显
      2024, 28(7): 1667-1680. DOI: 10.11834/jrs.20233313
      遥感基础模型发展综述与未来设想
      摘要:近年来,遥感智能解译技术快速发展,但大多为专用模型难以泛化到不同任务中,易造成资源浪费。基础模型是一种通用可泛化的解决方案,最近在遥感领域备受关注。尽管目前有大量工作已利用遥感单时相或多时相数据在感知识别和认知预测的部分任务上取得显著成果,但缺乏一个全面的综述给遥感基础模型提供系统概述。因此本文首先从数据、方法和应用角度对现有遥感基础模型的研究进展进行总结,然后通过分析现状存在的局限提出新一代遥感通用预测基础模型的设想,最后针对亟需研究的方向进行探讨与实验,为研究人员提供遥感基础模型过去成果与未来可能性之间的桥梁。  
      关键词:遥感智能解译;遥感基础模型;通用预测;多时相数据;多任务   
      836
      |
      1193
      |
      0
      <HTML>
      <网络PDF><Enhanced-PDF><Meta-XML>
      <引用本文> <批量引用> 45241434 false
      发布时间:2024-07-31
    • [{"title":"天基光学遥感动目标智能检测技术综述","chapter":"1 引言","content":"遥感卫星技术经过几十年的快速发展,目前在空间、时间和光谱维度上分辨率越来越高,这使得对地观测变得更加快捷高效。传统以静态观测为主的光学遥感卫星虽然可以满足部分应用需求,但无法感知观测区域具有重要价值的动态信息,比如战场的实时态势以及泥石流和火山等自然灾害的动态变化。遥感视频卫星的出现为获取观测区域的动态信息提供了一种可行的手段,推动遥感对地观测由静态的定期普查向实时的动态监测转变。遥感视频卫星作为一种新型对地观测卫星,相较于传统静态遥感影像可获得时间维度上的信息,从而对特定区域进行连续观测,可应用于重点区域侦查监视、应急处置情报保障、防灾减灾信息服务以及海洋权益维护信息服务等领域,具有重要的应用价值。作为视频卫星众多应用中的基础任务,光学遥感图像运动目标检测旨在对遥感卫星视频中具有连续运动特性的目标进行定位和分类,比如遥感视频卫星中的运动车辆。然而,由于增加了时间维度,遥感卫星视频数据量成倍增加,如何从视频卫星观测的海量数据中有效地提取感兴趣的运动目标成为亟待解决的问题。近年来,随着遥感视频数据的大量积累,使得可使用的遥感视频数据在“量”和“质”上均有显著提升,这为基于数据驱动的深度学习技术的应用创造了先决条件。现有的遥感运动目标检测方法主要集中在传统的基于模型驱动的方法,该类方法严重依赖于专家知识,且对于存在变化的场景适应能力有限。随着深度学习技术的发展,基于深度学习的方法为遥感运动目标检测带来了新的发展机遇。如何在充分考虑光学遥感运动目标特性的同时,借助深度学习技术,设计出高可靠、高实时、高性能的遥感动目标检测方法,是目前光学遥感视频领域重点关注的热门研究方向之一。本文主要聚焦于对遥感运动小目标检测相关工作的综述,对天基光学遥感视频卫星发展现状和光学遥感运动小目标检测技术进行了详细介绍,并在此基础上,进一步剖析了在深度学习技术赋能下的遥感运动目标检测的发展趋势。","result":"遥感卫星技术发展迅速,提高了空间、时间和光谱分辨率,但传统静态观测无法获取动态信息。遥感视频卫星的出现使得对地观测向实时动态监测转变,具有重要应用价值。光学遥感图像运动目标检测是视频卫星应用的基础任务,但面临海量数据中提取运动目标的挑战。深度学习技术的发展为遥感运动目标检测带来新机遇,本文综述了天基光学遥感视频卫星发展现状和运动小目标检测技术,探讨了深度学习技术在该领域的应用和发展趋势。","language":"zh"},{"title":"天基光学遥感动目标智能检测技术综述","chapter":"2 天基光学遥感视频卫星发展现状","content":"目前随着遥感卫星技术的大规模应用和数据处理与分析技术的进一步提高,光学遥感视频卫星成像的分辨率、稳定性方面均有了大幅度提高,已广泛应用于国土开发、军事安全、海洋监测等多个领域。视频成像卫星是指具有通过持续观测获取特定区域视频数据功能的卫星(于渊博 等,2017;张学阳,2017),该类卫星可以获得观测区域内的动态信息,实现对观测区域的完整态势感知。现有的卫星观测实现“凝视”成像主要有两种方式:采用静止轨道光学成像卫星(刘韬,2014)或者利用具备较高姿态敏捷性或图像运动补偿能力的低轨视频卫星(徐伟 等,2017;周宇 等,2015)。2.1 静止轨道视频卫星由于具有“站得高、看的远”的特性,地球静止轨道卫星因而能够大范围地对热点区域进行连续监测,这使得GEO卫星在情报侦查和环境变化监测方面具有广泛的应用前景。美国国防高级研究计划局(DARPA)于2010年提出薄膜光学成像仪实时利用MOIRE(Membrane Optic Imager Real-Time Exploitation)项目,利用光学薄膜可伸展折叠的特性,将其制作为卫星光学系统的物镜,用于对地高分辨率成像。欧洲的阿斯特留姆(Astrium)公司在2009年完成了“静止轨道—眼睛”(GeoOculus)卫星设计方案论证工作,该卫星具有10.5 m的分辨率。中国静止轨道光学成像卫星发展较快,现已发射了风云二号、风云四号和高分四号卫星。其中,高分四号于2015年12月成功发射,可观测中国及周边地区。2.2 低轨视频卫星相比于静止轨道视频卫星,低轨视频卫星具有持续观测、高敏捷性和成本低的特点,因而获得了各个国家的广泛关注和积极发展。与静止轨道视频卫星“凝视”观测不同,低轨卫星在“凝视”观测条件下,需要不断的调整姿态,以使相机对准同一地方进行拍摄。近年来,国内外发展出了许多具有视频拍摄监视功能的低轨卫星,其发射时间和具体技术指标如表1所示。其中,美国的Skybox公司分别在2013年和2014年发射了SkySat-1和SkySat-2视频卫星,这两颗卫星分辨率达到米级,且均可以拍摄视频数据。同一时期,国内的低轨视频卫星也取得了较大进展。国防科技大学研制的“天拓二号”试验卫星于2014年9月发射成功,该卫星可以拍摄对地分辨率为5 m的黑白视频。2015年10月,由中国长光公司研发的“吉林一号”01和02视频卫星发射成功,可以拍摄1.13 m地面分辨率的彩色视频。随后“吉林一号”03星于2017年1月成功发射,其地面分辨率进一步提高至0.92 m。其后,“吉林一号”04-08星分别在2017年—2018年间发射成功,分辨率提升至0.92 m以下。2018年1月,珠海欧比特公司研发的“珠海一号”OSV-1A/B两颗微纳卫星发射成功,可拍摄空间分辨率为1.98 m的彩色视频。该公司又于2018年4月和2019年9月分别发射珠海一号OSV-2和OSV-3星,空间分辨率提升至0.9 m。表1视频卫星的主要技术指标Table 1The main technical indicators of video satellites从上述介绍中可以看到,随着航天技术的发展,视频卫星取得了较大进展。相比于传统遥感卫星,视频卫星在获取的数据维度上增加了时间维度,这使得视频卫星能够用于探测动态事件,对于战场态势感知、灾害救援、突发事件监控等任务具有重要的现实意义。","result":"介绍了天基光学遥感视频卫星的发展现状,包括成像分辨率和稳定性的显著提升,以及在国土开发、军事安全、海洋监测等领域的广泛应用。视频成像卫星能够获取特定区域的动态信息,实现对观测区域的完整态势感知。静止轨道光学成像卫星具有大范围连续监测能力,如美国的MOIRE项目和欧洲的GeoOculus卫星。中国已发射风云二号、风云四号和高分四号等静止轨道卫星。低轨视频卫星以其持续观测、高敏捷性和低成本受到关注,如美国的SkySat系列和中国的\"天拓二号\"、\"吉林一号\"、\"珠海一号\"等。视频卫星在获取数据时增加了时间维度,对动态事件探测具有重要意义,适用于战场态势感知、灾害救援、突发事件监控等任务。","language":"zh"},{"title":"天基光学遥感动目标智能检测技术综述","chapter":"3 基于模型驱动的天基光学遥感动目检测技术发展现状","content":"天基光学运动目标检测是遥感视频处理的核心问题,是遥感视频分析和应用的前提,国内外已经开展了大量相关研究。现有方法主要分为传统的基于模型驱动的方法和基于数据驱动的深度学习方法,其发展历程如图1所示。目前,现有的基于模型驱动的天基光学遥感运动小目标检测方法主要可以分为光流法、帧差法、背景建模法以及基于低秩稀疏分解法。下面将对这4类方法进行介绍。图1光学遥感图像动目标检测技术发展历程Fig. 1Development history of optical remote sensing image moving object detection technology3.1 帧差法由于运动目标在连续的视频帧中运动时,相邻帧间图像灰度上会存在差异性,因此,可以利用帧间差分的方法来获取运动目标检测结果。现有的帧差法主要包括两帧和三帧差分法。两帧差分法选取两帧相邻图像进行差分操作,然后通过对残差图像进行分割提取目标检测结果。两帧差分法具有实现简单,运行速度快的特点。但是在场景中存在动态杂波(比如光照变化或者水流等场景),容易出现“鬼影”,“空洞”等现象。三帧差分法在两帧差分法上进行了改进,首先对相邻三帧图像做连续两次两帧差分,然后对差分结果取按位与操作,最后经过阈值分割获取检测结果。三帧差分法在实际应用中仍然容易丢失慢速运动目标。为了检测检测遥感视频中的运动小目标,研究人员对差分法进行了改进(袁益琴 等,2018;Ao等,2020)。袁益琴等(2018)结合差分法和背景建模法来对运动目标进行检测,提升了差分法的性能。Ao等(2020)提出基于局部噪声建模的方式来检测遥感运动车辆,并利用形态学滤波的方法来提取目标区域,最后利用卡尔曼滤波的跟踪方法来获取目标轨迹,实现对遥感运动小目标的检测与跟踪。康金忠等(2020)提出了一种感兴趣区域自动约束的卫星视频运动车辆快速检测方法,利用帧差法获得感兴趣区域,随后使用改进的混合高斯背景建模法进行目标提取。Yin等(2022a)在三帧差分法的基础上,首先利用多帧累积差分法来提取运动小目标,然后将检测结果与低秩矩阵补全相结合来获取最终的检测结果。综上所述,差分法原理简单,实现方便,运行快速,但是对于复杂场景和慢速目标鲁棒性不强,通常需要结合一些其他方法来提升帧差法自身的鲁棒性。3.2 光流法光流指的是目标在运动过程中引起成像平面上的像素变化而产生的“瞬时速度”。光流法依据光流信息来构建图像帧间关系,估计图像场景中的运动信息。光流法不仅可以用来检测运动目标,也可以应用于视频运动分析、目标跟踪、机器自动导航等多个领域(金静,2020)。光流法建立在目标的亮度恒定和相邻帧运动缓慢这两个基本的假设之上,利用帧间像素的变化以及相邻帧之间的相关性来获取目标的运动信息。由于光流可以较好地获取运动信息,因此被应用于运动目标检测任务上(崔智高 等,2017;李成美 等,2018;刘洪彬和常发亮,2016)。在光学遥感图像运动小目标检测领域中,罗亦乐等(2018)针对卫星视频提出一种利用光流估计交通参数的方法,该方法首先利用角点检测获取遥感视频中的车辆检测,然后利用LK光流估计方法获取目标帧间的运动信息,从而实现对遥感视频中的车辆跟踪和参数计算。光流法无需获取场景的先验信息即可对运动信息进行提取,但是光流法约束条件较为苛刻,且运算量一般较大,不适用于一些对实时性要求较高的场合。3.3 背景建模法背景建模法利用算法从原始图像中估计出背景,然后通过背景减法提取场景中的运动目标。背景建模法的核心是对背景进行准确的估计,从而可以获取更好的运动目标检测结果。现有的背景建模法可以分为两类,即统计模型法和低秩稀疏分解法,下面将对这两类方法分别进行介绍。3.3.1 统计模型法基于统计模型的背景建模法主要是获取对序列图像每个像素点的统计变量,依据得到的统计变量来对背景进行建模。常用的方法有均值背景建模法,中值背景建模法、高斯模型建模法以及视觉背景提取器ViBe(Visual Background Extractor)算法等(Kopsiaftis和Karantzalos,2015;Ahmadi和Mohammadzadeh,2017;Ahmadi等,2019;Wren等,1997;Stauffer和Grimson,1999;Barnich和van Droogenbroeck,2011)。由于目标在帧间存在运动,而在卫星“凝视”模式下背景相对静止,通过对序列图像中的每个像素点取时域中值或者时域均值,即可对背景进行建模。Kopsiaftis和Karantzalos(2015)提出利用中值背景建模获取背景图像,然后利用背景减法以及阈值分割获取二值分割图,最后利用形态学滤波的方法提取目标检测结果。Ahmadi和Mohammadzadeh(2017)、Ahmadi等(2019)提出利用均值背景建模法来实现运动车辆的检测与跟踪。该方法利用均值背景建模以及阈值分割获取目标检测结果,基于对目标检测结果的统计分析,获取目标的轨迹和实现交通参数估计。高斯模型适合用于相机固定的场景下对背景和前景进行分离,常用的方法有单高斯模型法和高斯混合模型法GMM(Gaussian Mixture Model)(宋佳声,2014)。单高斯模型假设背景图像中的同一位置像素随时间的变化符合高斯分布,通过对每个像素的均值方差进行统计来对像素点进行分类,然后对背景图像进行迭代更新。单高斯模型受初始化参数和第一帧图像的影响很大,且对场景中的动态杂波(如树叶的摆动或者水面的波动)不鲁棒。高斯混合模型对动态杂波比较鲁棒,可以对多峰分布背景进行建模,并且对背景的变化有一定的适应性。Zhang等(2019)提出了一种由粗到细的三步局部候选区域提取LRP(Local Region Proposal)的目标检测方法。基于高斯混合模型,Shu等(2021)提出了局部增强高斯混合模型以及改进的三帧差分法,用于提取遥感视频中的运动车辆,增强了算法对动态杂波的鲁棒性。Chen等(2023)提出利用背景估计方法(Zivkovic和van der Heijden,2006)估计背景,然后利用背景减法获取疑似目标,最后通过数据关联获取目标轨迹并利用目标轨迹剔除虚警,提升目标检测性能。ViBe(Barnich和van Droogenbroeck,2011)是一种像素级的背景重建方法,该算法的主要改进在于背景模型的随机更新策略,用于模拟像素真实变化的不确定性。ViBe对硬件资源占用少,效果较好。Yang等(2016)提出一中基于显著性增强的光学遥感图像运动小目标检测算法,该方法首先利用ViBe提取分割出前景区域,然后提取出目标位置并形成轨迹,动态生成场景运动热图,最后基于显著性背景建模分割出目标检测结果。吴佳奇等(2019)针对卫星视频运动目标检测提出了一种改进的ViBe背景建模方法,该方法利用一个更新因子来缓解动态杂波产生的虚警。3.3.2 低秩稀疏分解法近年来,基于稀疏性和低秩性重构的目标检测方法受到很多学者的关注,它假设缓慢变化的背景具有低秩性,而相较于背景只占据极少像素数的目标具有稀疏性,可以利用低秩稀疏分解的方法分离背景和目标,从而实现运动目标检测。传统主成分分析方法PCA(Principal Component Analysis)(Abdi和Williams,2010)主要对背景的低秩特性进行了利用,通过使得秩最小化来达到估计背景的目的,但是传统的主成分分析方法对严重损坏的像素很敏感,性能不够鲁棒。在此基础上,研究人员提出了鲁棒主成分分析方法RPCA(Robust Principal Component Analysis),利用鲁棒的主成分分析法将图像分别为低秩的背景矩阵和稀疏的前景矩阵,从而实现运动目标检测。在此基础上,研究人员提出了一些改进的方法,比如快速低秩逼近GoDec(Go Decomposition)(Zhou和Tao,2011)、低秩连续离群点表示DECOLOR(DEtecting Contiguous Outliers in the LOw-rank Representation)(Zhou等,2013)和结构化低秩稀疏LSD(Low-rank and Structured Sparse Decomposition)(Liu等,2015)等。针对光学遥感图像运动小目标检测问题,Zhang等(2020a)在LSD基础上,引入了噪声分量,提出了扩展低秩和结构化稀疏分解方法E-LSD(Extended Low-rank and Structured Sparse Decomposition)。该方法利用交替方向乘子法ADMM(Alternating Direction Method of Multipliers)(Boyd等,2011;Ghadimi等,2015;Wang等,2019)对背景图像、目标图像和噪声分量进行迭代优化求解,从而实现对光学遥感图像运动小目标的检测。虽然E-LSD取得了较好的效果,但是计算复杂,运行效率低。为了提升运行效率,Zhang等(2020b)提出了在线低秩结构化分解O-LSD(Online Low-rank and Structured Sparse Decomposition)方法。该方法利用在线子空间基估计优化方法来解决遥感运动目标检测问题,并且对每一帧图像的前景和背景进行交替更新。为了抑制场景中动态杂波造成的虚警,Zhang等(2022)设计了一种基于运动置信度的矩阵分解方法MCMD(Moving-Confidence-Assisted Matrix Decomposition),提出了基于块优化的MCMD方法(B-MCMD)和在线MCMD方法(O-MCMD),通过引入光流估计产生的置信度图,抑制了平台运动和光照变化造成的虚警,从而提升了运动目标检测能力。Yin等(2022b)提出采用时空张量来对遥感运动目标检测问题进行建模,并利用加权Schatten-p范数来求解背景分量,取得了较好的效果。虽然基于低秩稀疏分解的遥感运动小目标检测方法取得了较大的发展,但是这类方法采用复杂的约束项和迭代优化方法对目标和背景进行求解,以获得更好的效果,这导致了方法的计算复杂度增加,使得方法时效性不高。综上所述,背景建模法的核心在于背景重建,此类方法的目标检测性能严重依赖于背景重建的质量。","result":"详细讨论了基于模型驱动的天基光学遥感动目检测技术的发展现状。介绍了四种主要的检测方法:帧差法、光流法、背景建模法和基于低秩稀疏分解法。帧差法通过分析连续视频帧之间的灰度差异来检测运动目标,但存在对复杂场景和慢速目标鲁棒性不强的问题。光流法利用目标运动引起的像素变化来估计运动信息,适用于多个领域,但对实时性要求较高的场合不适用。背景建模法通过估计背景并减去背景来提取运动目标,包括统计模型法和低秩稀疏分解法。统计模型法使用各种统计变量对背景进行建模,而低秩稀疏分解法基于背景的低秩性和目标的稀疏性进行分离。这些方法在目标检测性能上依赖于背景重建的质量,但计算复杂度较高,可能影响时效性。","language":"zh"},{"title":"天基光学遥感动目标智能检测技术综述","chapter":"4 基于数据驱动的天基光学遥感动目检测技术发展现状","content":"随着深度学习技术的发展,基于深度学习的检测技术取得了丰硕的成果。在通用目标检测领域,自2014年区域卷积神经网络R-CNN(Region-Based Convolutional Neural Networks)(Girshick等,2016)问世以来,基于深度学习的通用目标检测技术取得了飞速的进步。通用目标检测旨在对自然图像中的目标进行定位和分类,是计算机视觉领域中经典的任务。经过近年来的发展,基于深度神经网络的通用目标检测已经取得了重大的突破,涌现出许多优秀的目标检测方法。按照主流的分类方法可以将现有的方法分为3类,即基于锚框的目标检测方法(Ren等,2017)、锚框的目标检测方法(Law和Deng,2018)以及端对端预测的目标检测方法(Carion等,2020)。虽然基于深度学习的通用目标检测技术取得了巨大的成功,但是与通用目标检测不同,光学遥感图像运动小目标尺寸极小(通常小于9×9),纹理和外观特征匮乏。而通用目标检测主要基于外观特征对目标进行检测,因此无法将通用目标检测方法直接迁移应用到光学遥感图像运动小目标检测问题上,需根据光学遥感图像运动小目标特点来针对性设计网络结构。根据有无监督信号,现有的基于深度学习的光学遥感图像运动小目标检测方法可以分为基于有监督学习和无监督学习的光学遥感图像运动小目标检测。4.1 有监督学习的光学遥感图像运动小目标检测基于有监督的光学遥感图像运动小目标检测方法指在人工标注的标签作为监督信号的情况下,训练网络使其自动学习回归光学遥感图像运动小目标位置。由于光学遥感图像运动小目标尺寸小,部分目标与背景对比度低,检测难度大,仅从单帧图像中提取的信息有限,无法对其进行有效检测。对于光学遥感图像运动小目标来说,时空域信息是更有用的信息,因此,现有的方法主要研究的是如何有效利用多帧图像中的时空域信息(Pi等,2022;LaLonde等,2018;Xiao等,2022;Feng等,2021,2023)。LaLonde等(2018)提出了一个两阶段的航空视频小目标检测网络。该网络分为两个阶段,在第一阶段,通过二维卷积从堆叠的多帧图像中提取时空域信息,并从中预测出大致的目标区域。在第二阶段,利用网络对感兴趣区域的目标热图进行预测,从而得到目标检测结果。由于该网络仅用二维卷积提取时空域信息,时空域信息利用得不充分。Xiao等(2022)提出一个两流网络DSFNet(图2)通过融合静态语意信息和动态运动信息来检测遥感视频中的运动车辆。Feng(2021)等提出一个基于深度学习的检测框架用于卫星视频运动小目标检测,该方法首先利用关键点检测方法检测遥感运动小目标,然后设计基于空域和运动信息跟踪网络实现跟踪。Feng等(2023)在前期工作的基础上提出了一种基于语义嵌入的密集自适应网络,进一步降低了在密集复杂场景下的网络检测虚警。此外,Pi等(2022)利用差分模块提取遥感视频中相邻帧目标的运动信息,并利用 Transformer 细化关键点估计和尺度预测的特征来检测低成像质量的卫星视频中的微小移动车辆,其网络结构图如图3所示。现有的基于有监督学习的光学遥感图像运动小目标检测方法研究成果相对较少,还处于起步阶段。图2DSFNet网络结构图Fig. 2The network architecture of DSFNet图3VLR-MVD中的网络结构图Fig. 3The network architecture in VLR-MVD现有的方法主要研究的是如何有效提取时空域信息来对运动目标进行检测,比如从多帧图像中直接提取时空特征(LaLonde等,2018)或者从差分图像中提取运动特征(Pi等,2022)。如何有效提取和利用时空域信息还需进一步进行探索。此外,近年来基于注意力机制的通用目标检测方法发展较快(Carion等,2020;Li等,2022),这为遥感动目标检测提供了新的思路。Pi等(2022)首次将注意力机制用于增强目标特征,提升遥感动目标检测性能,取得了较好的效果。在遥感动目标检测领域中,关于注意力机制应用的探索还比较有限,如何有效利用注意力机制增强动目标特征是一个值得探索的方向。4.2 无监督学习的光学遥感图像运动小目标检测近年来,监督学习的方法已经在遥感领域获得了广泛的应用。然而,在实际中,获取高质量标注的大规模数据集往往需要耗费大量的人力物力。基于无监督学习的运动小目标检测旨在从无人工标注的数据集中学习如何检测运动小目标,可以大大降低对标注数据的依赖,从而减轻标注成本(Zhang等,2021;Xiao等,2023)。当前,自然图像领域里已经发展出了一些基于无监督学习的运动目标检测方法(Sultana等,2021;Zhuo等,2020;Yun等,2021;Bao等,2022)。尽管无监督学习在自然场景中的运动目标检测中取得了不错的效果,但是由于光学遥感图像运动小目标尺寸极小,与背景对比度低,使得现有的方法不能直接进行迁移使用。为了减轻遥感视频中运动车辆的标注成本,Zhang等(2021)提出一种无监督运动小目标检测方法来获取遥感视频中的运动车辆。该方法首先利用传统的低秩稀疏分解方法E-LSD(Zhang等,2020a)获取运动车辆的伪标签,然后利用伪标签训练编码解码网络来分割运动目标。由于创建的伪标签不够准确,该方法获得的检测性能比用于产生伪标签的传统方法性能稍差。Xiao等(2023)提出一种无监督遥感运动车辆检测框架,通过构建背景重建网络以无监督方式重建高精度背景,然后以迭代优化方式获取目标检测结果。综上,无监督学习可以减轻深度神经网络对大规模标注数据的依赖,具有很好的应用前景。在光学遥感运动小目标领域,无监督学习还有待发展。","result":"深入探讨了基于数据驱动的天基光学遥感动目标智能检测技术的发展现状。自2014年R-CNN的提出,深度学习在通用目标检测领域取得了显著进步。然而,光学遥感图像中小目标尺寸小、特征匮乏,使得通用目标检测方法难以直接应用于遥感图像。为此,研究者们根据遥感图像特点设计了针对性的网络结构,主要分为有监督学习和无监督学习两大类。\n\n在有监督学习方面,现有方法主要研究如何有效利用多帧图像中的时空域信息进行目标检测。例如,LaLonde等人提出了两阶段的航空视频小目标检测网络,Xiao等人提出了融合静态语意信息和动态运动信息的两流网络DSFNet,Feng等人提出了基于深度学习的卫星视频运动小目标检测框架。此外,Pi等人利用差分模块和Transformer细化特征来检测低成像质量视频中的微小移动车辆。尽管取得了一定进展,但基于有监督学习的光学遥感图像运动小目标检测方法仍处于起步阶段,如何有效提取和利用时空域信息还需进一步探索。\n\n在无监督学习方面,由于获取高质量标注数据集成本高昂,研究者们致力于从无人工标注的数据集中学习检测运动小目标。例如,Zhang等人提出了一种无监督运动小目标检测方法,利用低秩稀疏分解方法获取伪标签,然后训练编码解码网络进行目标分割。Xiao等人提出了一种无监督遥感运动车辆检测框架,通过背景重建网络无监督重建高精度背景,以迭代优化方式获取检测结果。无监督学习在光学遥感运动小目标领域具有很好的应用前景,但仍有待进一步发展。\n\n此外,还提到了基于注意力机制的通用目标检测方法在遥感领域的应用潜力。Pi等人首次将注意力机制用于增强目标特征,提升了遥感动目标检测性能。如何有效利用注意力机制增强动目标特征是一个值得探索的方向。","language":"zh"},{"title":"天基光学遥感动目标智能检测技术综述","chapter":"5 数据集、评价指标及实验结果分析","content":"5.1 遥感动目标检测常用数据集在大数据时代,数据集为推动基于深度学习的遥感目标检测技术的发展发挥了重要作用。首先,基准数据集可以作为开发和评测方法性能的基础,为研究新方法提供支撑作用;其次,大量带有人工标注的数据推动了基于数据驱动的深度学习技术的研究;最后,数据集中往往囊括了多种挑战和难题,可以推动领域发现新问题寻求新思路。近年来,研究者们已经提出了多个面向不同问题的遥感数据集,极大地促进了遥感领域的发展。遥感视频序列图像数据集是研发处理海量卫星视频影像的基础数据平台。现有的遥感视频序列图像数据集较少,主要有针对遥感运动目标检测的VISO数据集(Yin等,2022a)、针对遥感视频多目标检测跟踪的AIR-MOT数据集(He等,2022)。上述两个数据集均包含飞机、船只等目标。针对遥感运动小目标检测的数据集有SkySat车辆检测数据集(Zhang等,2020a)和VISO车辆数据集(Yin等,2022a)。两者均为运动车辆数据集。相比于SkySat数据集,VISO车辆数据集背景动态复杂多变,检测难度更大。VISO车辆数据集典型场景如图4所示。图4VISO车辆数据集示意图Fig. 4The illustration of VISO Car dataset5.2 遥感动目标检测评测指标光学遥感图像运动目标检测领域常用的指标有召回率(Recall)、精确率(Precision)以及F1分数,其定义如下: (1) (2) (3)式中,正阳性TP(True Positive)为正确检测结果,假阳性FP(False Positive)为错误检测结果,假阴性FN(False Negative)为目标漏检结果。在通用目标检测领域,通常采用交并比IoU(Intersection over Union)来判断检测结果是否为正确检测结果。但是由于运动小目标的尺寸小,检测结果的细微偏差便会导致IoU值的剧烈变化(Xiao等,2023)。因此,可以利用基于距离的度量判断检测结果是否为正确检测或者虚警。此外,由于已知遥感卫星分辨率,设置的距离阈值具有明确的物理含义,比如把距离设置为5个像元,对于分辨率为1 m的卫星视频,则代表实际定位精度为5 m以内,则为正确检测。5.3 遥感动目标检测实验结果分析本节主要对比不同遥感运动目标检测方法的性能,选取的数据集为VISO车辆数据集(Yin等,2022a)。VISO车辆数据的特点是目标尺寸小(通常小于),背景复杂,检测难度大,数据集中利用目标框作为标注,标记出运动车辆。这里主要对比了9种算法,包括4种低秩稀疏方法(即GoDec(Zhou和Tao,2011)、DECOLOR(Zhou等,2013)、E-LSD(Zhang等,2020a)以及B-MCMD(Zhang等,2022));两种基于差分的方法(即D&T(Ao等,2020)和MMB(Yin等,2022a));两种有监督的深度学习方法(ClusterNet(LaLonde等,2018)和DSFNet(Xiao等,2022));一种无监督的模型驱动和数据驱动相结合的方法(DeepPrior(Xiao等,2023))。实验结果如表2所示。注: 加粗表示最优值,下划线表示次优性能。表2不同方法在VISO车辆数据集上取得的召回率(Re), 精确率(Pr), 以及F1分数(F1)Table 2Recall (Re), Precision (Pr), and F1 Score (F1) achieved by different methods on VISO CAR dataset /%从表2的结果中可以总结出如下结论:(1)相比于传统算法,基于有监督深度学习的遥感运动小目标检测方法表现出了优异性能(Xiao等,2022)。但是现有的有监督学习方法数量不多,还需进一步发展。(2)相比于有监督学习方法,无监督遥感运动小目标检测方法可以减少人工标注成本,因此更具有应用前景。但是现有的无监督遥感运动目标检测方法性能还有待进一步提升(Xiao等,2023)。(3)结合传统模型驱动和数据驱动的方法展现出了较大的潜力(Xiao等,2023),未来可以进一步探索结合传统先验和深度模型的方法。","result":"重点介绍了遥感目标检测技术中的数据集、评价指标和实验结果分析。数据集在推动深度学习技术发展中扮演了关键角色,提供了多种挑战和难题,促进了遥感领域的发展。介绍了遥感视频序列图像数据集,如VISO、AIR-MOT、SkySat和VISO车辆数据集,这些数据集包含飞机、船只等目标,具有背景复杂、检测难度大的特点。评价指标包括召回率、精确率、F1分数和基于距离的度量,用于评估检测结果的准确性。实验结果分析对比了9种不同遥感运动目标检测算法在VISO车辆数据集上的性能,包括低秩稀疏方法、基于差分的方法、有监督和无监督深度学习方法。结果表明,基于有监督深度学习的方法表现出优异性能,但数量有限;无监督方法具有应用前景,但性能有待提升;结合传统模型驱动和数据驱动的方法展现出潜力。","language":"zh"},{"title":"天基光学遥感动目标智能检测技术综述","chapter":"6 结语","content":"本文回顾了光学遥感动目标(特别是运动小目标)检测技术的发展历程,在深度学习技术快速发展的影响下,光学遥感动目标检测技术从传统的基于模型驱动的方法正朝着基于数据驱动方法进行演变,从简单的人工特征提取迈向智能化的多维度深层次特征提取。同时通过剖析当前光学遥感动目标检测发展现状,展望了未来遥感动目标检测的发展趋势。(1)分布式星座组网协同观测。随着批量化卫星产业链的迅速成熟,卫星的制造、发射成本极大降低,国内多家机构及公司推出了各自的商业遥感卫星星座计划,如长光卫星的“吉林一号”星座、欧比特公司的“珠海一号”遥感星座、未来宇航的“丝路天图”遥感星座、零重空间公司的“灵鹊星座”、武汉大学的“东方慧眼”遥感星座和航天科工三院“星云星座”等。单颗低轨卫星重访周期较长,无法对同一指定观测区域进行长时间观测,导致无法连续获取指定区域的高价值态势信息。利用分布式星座协同组网观测,将可以实现对地高时间分辨率和高空间分辨率的态势感知,提升对全球范围内突发情况的反应能力。(2)特征表达—检测—跟踪一体化模型。针对传统分段式“检测+跟踪”处理流程效率较低且模块间互补性不足的问题,采用多任务学习思想,将检测跟踪两大任务有机串联起来,构建起检测跟踪一体化端到端模型是未来的重要发展趋势。在常规计算机视觉任务中,底层视觉任务(如图像超分辨)和高层视觉任务(如目标检测和跟踪)通常是独立处理的。遥感弱小目标尺寸小、目标与背景对比度低,获取好的特征表达难度大,并且高级的视觉任务之间互相分离,没有达到互相促进的效果。为了有效地构建起弱小目标的高层视觉感知和底层语义结构之间的联系,未来需要充分研究底层的特征表达和高级视觉任务之间的相互关系,通过级联多任务模块,设计多任务联合优化策略和优化损失,进行多任务动态优化学习,使得在获取好的特征表达同时取得良好的高级任务性能,从而实现遥感运动小目标特征表达—检测—跟踪一体式处理。(3)弱监督/无监督光学遥感动目标检测技术。光学遥感图像中动目标通常尺寸较小,同一图像中目标较多,且部分目标与背景对比度低。因而为光学遥感动目标检测任务标注大规模数据集耗时耗力。为减轻数据标注的成本,弱监督/无监督动目标检测技术是未来的重要发展趋势。弱监督只需提供粗标注的标签(如点标注),通过方法设计来引导深度神经网络学习检测动目标。无监督无需人工标注,通过利用目标特性,比如动目标在时空域上的连续性,可生成伪标签来引导深度神经网络学习。未来需进一步探索研究如何在弱监督/无监督条件下,实现光学遥感动目标的高性能检测,从而降低标注成本。(4)海量数据星上快速检测技术。遥感视频卫星全天时全天候产生海量数据,且遥感图像尺寸较大(图像长宽可达万级像素),这对星上处理和星间数据传输带来了极大的挑战。在星上资源有限条件下,实现高可靠和高时效的遥感动目标检测是未来需要重点探索的方向。在常规的深度神经网络中,通常对图像每个位置同等分配算力。由于光学遥感动目标尺寸小,在图像中占比低,图像中的绝大部分为背景区域,这使得常规的深度神经网络将大量的算力分配给背景区域,存在极大的计算冗余。未来需探索研究利用背景与目标占比不均衡这一特性,提取感兴趣的区域进行精细化处理,减少背景区域的冗余计算,从而实现在星上资源有限条件下光学遥感动目标高可靠和高时效检测。(5)高空间分辨率遥感图像动目标检测—识别技术。受限于现有遥感视频图像的空间分辨率,遥感运动车辆缺乏形态和纹理特征,因而难以实现光学遥感动目标的识别。随着遥感技术的进一步发展,遥感视频分辨率有望获得进一步的提升,从而使得遥感动目标具有一定的几何纹理信息,可作为遥感动目标检测—识别的基础。因此,在高空间分辨率的前提下,未来可探索遥感动目标检测—识别一体化方法,通过将目标检测和识别任务进行联合优化,充分挖掘目标的深层次特征,在实现遥感动目标定位的同时获取目标的类别信息。","result":"综述了光学遥感动目标检测技术的发展历程,指出了深度学习技术推动下,检测技术正从基于模型驱动向基于数据驱动方法转变,实现智能化的多维度深层次特征提取。文章分析了当前技术发展现状,并预测了未来趋势,包括:(1)分布式星座组网协同观测,以提高对地观测的时间和空间分辨率;(2)特征表达—检测—跟踪一体化模型,通过多任务学习思想串联检测和跟踪任务,提高效率;(3)弱监督/无监督光学遥感动目标检测技术,以减轻数据标注成本;(4)海量数据星上快速检测技术,探索在星上资源有限条件下的高可靠和高时效检测方法;(5)高空间分辨率遥感图像动目标检测—识别技术,随着遥感技术发展,探索检测—识别一体化方法。","language":"zh"}]
      肖超,安玮,李朝旭,李博扬,应昕怡,林再平
      2024, 28(7): 1681-1692. DOI: 10.11834/jrs.20243277
      天基光学遥感动目标智能检测技术综述
      摘要:天基光学遥感动目标检测旨在对遥感卫星视频中具有连续运动特性的目标进行定位和分类,比如遥感视频卫星中的运动车辆、舰船和飞机。随着遥感视频卫星技术和深度学习技术的快速发展,基于模型驱动的传统遥感动目标检测方法正朝着基于数据驱动的深度学习方法进行演变,以完成高可靠、高时效、高性能的天基光学遥感图像动目标检测。本文介绍了光学遥感视频卫星的发展现状,并对基于模型驱动和基于数据驱动的光学遥感动目标检测方法进行了总结,梳理和分析了光学遥感动目标检测技术的发展历程。最后,在此基础上对光学遥感动目标检测的未来发展趋势进行了展望。  
      关键词:天基光学遥感;运动目标检测;卫星视频;模型驱动;数据驱动;神经网络;时空信息;无监督学习   
      105
      |
      330
      |
      0
      <HTML>
      <网络PDF><Enhanced-PDF><Meta-XML>
      <引用本文> <批量引用> 64962025 false
      发布时间:2024-07-31

      卫星信息智能处理技术

    • [{"title":"光学遥感图像的小样本目标检测","chapter":"1 引言","content":"遥感图像目标检测是为了确定遥感图像中目标物体的位置并正确识别目标对象的类别(刘小波 等,2021;姚艳清 等,2021;周培诚 等,2021),如检测遥感图像中的船只(姚红革 等,2020;于野 等,2020);对遥感图像进行目标检测具有广阔的应用前景,在交通安全、应急救援等方面都具有重要作用(姚群力 等,2019)。然而,在军事等某些特殊场景下,遥感图像采集成本高,无法拍摄大量图像,难以构建大规模的遥感图像数据集,导致模型的检测效果往往不尽如人意。基于上述分析,针对遥感图像的小样本目标检测的研究是一个非常具有前景和价值,十分值得探索的方向。小样本学习通常有C个类别,每类具有K个样本,总共C×K个样本,要求模型从这C×K个样本数据中学习识别目标的能力,也被称为C-way K-shot问题,多数研究聚焦在图像分类任务中。小样本目标检测任务,相比单纯的小样本分类任务更为复杂和困难,需要标识出目标的位置信息,是目标检测和小样本学习的融合研究,一般会联合小样本学习算法与训练过程的策略,配合精心构建的目标检测网络,从数据、特征或优化策略等多个方向引导,使得模型能够在只有少量有标注的训练数据中更好地适应于特定任务的检测。现有的小样本目标检测方法基于模型结构、度量学习、数据增强等方向开展研究。基于模型结构的方法一般是基于已有的检测模型,设计出新的模块用于引入额外的信息,进而减少对样本数据集的依赖,实现检测性能的提升。Fan等(2020)提出了一种新的注意力网络,通过权重共享充分学习目标间的匹配关系以及相同类别的通用知识,使得区域建议网络能更好地过滤信息。Yang等(2020)设计出一个上下文转换器(context-transformer)模块,能够发现基类和新类的关联关系,借助上下文之间的关联改善目标分类错误的情况。基于度量学习的方法是提取到目标的特征,将其与支持图像特征转换至同一个嵌入空间,然后计算距离或相似度以完成对不同类别目标的检测(张振伟 等,2022)。此类方法主要聚焦于小样本目标检测的分类部分,用于类别相似度度量。Zhang等(2019)利用对比网络解决小样本目标检测任务中的度量问题,训练好的模型无需调整参数就可直接对新类进行目标检测。Karlinsky等(2019)将模态的中心作为类的表示向量,提出了一种基于数据多模态的度量学习方法,可以训练学习到网络参数。基于数据增强的方法是基于已有的少量样本,设计算法进行变换,通过直接增加训练样本的数量或间接增强特征,从而增加模型的输入信息,扩充原有小样本数据集,生成一个更大的数据集,降低模型的过拟合。Zhang和Wang(2021)为了解决训练数据缺乏变化的问题,设计出一种幻觉器网络,该网络学习在特征空间中生成额外的、对训练有帮助的样本,产生了显著的性能提升。Zhang等(2020)提出了一种冗余RPN的机制,提出更多的感兴趣区域,用以解决小样本条件下的建议忽略效应。目前针对小样本背景下目标检测的研究取得了一定成果,但仍然存在少量样本导致卷积层不能有效提取图像的特征(Chen等,2019),模型对小样本类别的目标定位能力弱(Zhang等,2020),以及分类器不能有效区分不同类别目标(Sun等,2021)等问题。因此,本文针对遥感图像小样本目标检测任务中存在的对小样本类别的目标定位能力弱、模型特征提取不充足以及不同类别目标区分度不高等问题,提出了一种基于协同注意力模块和对比学习分支的小样本目标检测算法。该方法基于改进模型对小样本类别目标的定位及检测能力的研究目的,通过协同注意力的指导与对比损失的区分,提升准确性能与分类准确率。","result":"介绍了遥感图像目标检测的重要性和应用前景,指出了在特殊场景下由于图像采集成本高、数据量少导致的检测效果不佳问题。小样本学习在C-way K-shot问题中的应用,以及小样本目标检测任务的复杂性和挑战。现有研究主要从模型结构、度量学习和数据增强三个方面进行探索。模型结构方法通过设计新模块引入额外信息,度量学习方法通过特征嵌入空间的相似度计算进行分类,数据增强方法通过样本变换增加输入信息。然而,现有方法仍存在特征提取不足、目标定位能力弱和分类器区分度不高等问题。针对这些问题,本文提出了一种基于协同注意力模块和对比学习分支的算法,旨在提升小样本类别目标的定位和检测能力,提高准确性能和分类准确率。","language":"zh"},{"title":"光学遥感图像的小样本目标检测","chapter":"2 研究方法","content":"本文在两阶段微调方法TFA(Two-stage Fine-tuning Approach)的基础上进行改进,分为基础训练阶段和小样本微调阶段。首先对训练样本进行数据增强,然后在特征提取网络中引入协同注意力模块,提升网络对目标的敏感性;在检测阶段加入设计的对比学习分支,配合联合训练策略,通过反向传播增大类间距离,提升分类准确性。2.1 数据增强小样本目标检测任务的关键问题是样本数量不足,过少的训练数据会使得网络模型训练不稳定,过拟合严重。基于此,本文通过传统数据增强和Mosaic数据增强两种方式对样本数据集进行增强。2.1.1 传统数据增强本文采用的传统数据增强方式是在图像中添加随机噪声,在实际场景中,对图像进行采集会受到环境的影响而产生噪声,会造成图像清晰度降低,局部区域亮度变高。在深度学习中,训练时往往会在输入数据中加入高斯噪声,以提高模型的鲁棒性和泛化能力,详见图1。通过向输入数据添加噪声,模型被迫学习对输入中的微小变化具有鲁棒性的特征,这可以助其在新的、看不见的数据上表现更好。本文在微调阶段的制作的小样本数据集中加入高斯噪声,以提高模型的泛化能力。图1加入高斯噪声前、后效果对比Fig. 1Comparison of the effect before and after adding Gaussian noise2.1.2 Mosaic数据增强除了对小样本数据集进行传统的数据增强外,为了进一步扩充数据集,本文还对训练样本进行了Mosaic数据增强。而Mosaic数据增强方法的主要思想是将4张图片进行随机裁剪,再拼接到一张图上作为训练数据,可以丰富图片的背景,进而扩充了目标周围的语义信息。此外,在使用 Mosaic图像增强后的数据进行模型训练时,可以一次计算4张图片的信息,实现了训练时间成本的降低、检测精度的提高,增强了模型的泛化能力和实时性能。使用Mosaic方法进行数据增强的步骤如下:首先从数据集中每次随机读取4张图片,然后分别对四张图片进行翻转(对原始图片进行左右的翻转)、缩放(对原始图片进行大小的缩放)、色域变化(对原始图片的明亮度、饱和度、色调进行改变)等操作,进行图片的组合和框的组合,将4张图像固定的区域截取下来,然后将其拼接起来,拼接成一张新的图像,新的图像上含有标注信息等一系列的内容。通过传统的与Mosaic数据增强对小样本数据集进行扩充,生成新的样本图像,能一定程度上缓解小样本条件下,深度学习目标检测模型的过拟合与数据稀疏的问题。2.2 协同注意力模块设计在小样本目标检测任务中,常规的深度学习模型在小样本数据集上特征提取能力弱,无法获得充足的有效信息,使得对小样本类别目标的定位效果较差,遥感图像复杂的背景信息干扰加剧了这个问题。本文设计出一个协同注意力模块,包括背景衰减注意力和空间感知注意力,能够从充足的基类数据集中提取与目标定位相关的注意力,然后应用到微调阶段中,赋予特征点在多个维度上的不同权重,协助模型更好地实现对小样本遥感图像的目标检测。背景衰减注意力结构如图2。图2背景衰减注意力结构Fig. 2Background attenuation attention structure该过程可以表述为 (1)表示原有特征图Y上第i点的特征向量;Ω表示空间点的集合,表示线性可学习矩阵。然后将计算出的结果与原有特征图进行加权,得到特征增强后的特征图。该过程可以表示为 (2)式中,为常数超参数。经过背景衰减模块,能够将特征图的原始信号沿通道维度与重要性得分对齐,与目标相关的区域可以增强或保持特征,相反,不相关区域的信号,在加权后会变得模糊,相当于信号的一种叠加,能够去除特征图中无关的背景噪声,达到突出目标的有效特征,抑制无关特征的效果。空间感知注意力结构见图3。图3空间感知注意力结构Fig. 3Spatial aware attention structure首先将输入的特征图经过两个学习的权重矩阵处理为嵌入向量,是原始特征通道数C的四分之一。计算过程表示如式(3)所示。 (3)特征图上各部分的关联性得分由式(4)计算而来: (4)式中,,为所有像素的平均嵌入值,然后在空间维度上执行softmax函数σ。除了考虑特征图与自身的相关性,关注还应该基于图像本身,因此,空间感知注意力函数计算公式如下: (5)式中,为常系数,。此时,的输出形状为HW×HW,代表基于背景衰减注意力处理后特征图(HW)的每个空间位置的多个注意力图(HW)。因此,位置感知向量可以由下式得到: (6)式中,Ω为特征图的所有像素。由式(6)可知,Z的所有向量根据每个像素位置i自适应加权并聚合为一个向量。2.3 对比学习分支设计检测器把小样本目标误分类成了易混淆的基类目标才是导致小样本精度下降的主要原因(Sun等,2021)。本文加入一个对比学习损失函数,通过与交叉熵损失函数一起作用,用于引导模型学习增强不同类别间的差异,更好地对目标进行分类。首先将区域提案特征表示映射成更适合于对比的向量表示,这种投影模块对提高其前层的表示质量具有重要意义(Chen等,2020),然后将特征向量进行L2范数归一化,过程如图4,即对向量X的每个维度数据x1,x2,…,xn都除以得到一个新向量。图4对比损失计算过程Fig. 4Contrastive loss calculation process本文提出的对比损失函数定义如下: (7)式中,Ω为所有特征向量的集合,为与向量i同类的特征向量集合,即正样本集合,i·j表示计算向量之间的余弦相似度。整体结构如图5。图5对比学习分支和交叉熵损失分支组成的整体网络结构Fig.5The overall network structure composed of contrastive learning branch and cross entropy loss branch该网络结构由两个分支组成,交叉熵(CE)损失分支和对比学习(CL)分支。计算公式如下: (8)式中,α为随着训练轮次变化的权重,变化趋势图像如图5,指代上一小节的对比损失函数,指代交叉熵损失函数。通过α动态调整两个损失函数所占的权重,引导网络早期希望通过损失函数反向传播学习更好的特征表示,后期在将特征区分开后,损失函数注重对分类器的训练。2.4 模型的训练模型的训练过程包括基础训练阶段与小样本微调阶段。在基础训练阶段中,充足的基类训练样本用于训练设计的协同注意力模块,包括背景衰减注意力和空间感知注意力。之后的小样本微调阶段,制作用于微调的小样本数据集,对于基类与新类的每个类别,只选取K张有标注的图像,借助从大规模基类中学习的协同注意力,指导微调阶段特征图的生成,同时加入对比学习分支,基于对比损失函数,配合联合训练策略,从不同类别的样本中学习更好的分类能力。整体框架如图6所示。图6本文算法整体框架示意图Fig.6The overall framework of the algorithm in this article","result":"在两阶段微调方法TFA的基础上改进,提出了一种针对光学遥感图像小样本目标检测的方法。该方法分为两个阶段:基础训练和小样本微调。在基础训练阶段,通过数据增强技术,包括传统数据增强和Mosaic数据增强,解决样本数量不足的问题,提高模型的鲁棒性和泛化能力。Mosaic数据增强通过随机裁剪和拼接四张图片,丰富背景信息,降低训练时间成本,提高检测精度和模型泛化能力。\n\n在小样本微调阶段,设计了协同注意力模块,包括背景衰减注意力和空间感知注意力,以增强模型对小样本类别目标的定位能力。背景衰减注意力通过加权特征图,去除无关背景噪声,突出目标特征;空间感知注意力则通过计算特征图上各部分的关联性得分,增强空间维度上的相关性。\n\n此外,本文还引入了对比学习分支,通过对比学习损失函数引导模型学习增强不同类别间的差异,提高分类准确性。对比学习损失函数与交叉熵损失函数结合,通过动态调整权重,使网络在训练过程中先学习更好的特征表示,后注重分类器的训练。\n\n模型训练包括基础训练和小样本微调两个阶段。在基础训练阶段,使用大量基类训练样本训练协同注意力模块;在小样本微调阶段,利用少量有标注的新类图像,结合协同注意力和对比学习分支,学习更好的分类能力。整体框架如图6所示,包括对比学习分支和交叉熵损失分支,通过联合训练策略提高小样本目标检测的性能。","language":"zh"},{"title":"光学遥感图像的小样本目标检测","chapter":"3 实验结果与分析","content":"本文实验所用GPU为NVIDIA TITAN Xp,相关实验都是在Linux系统中进行,操作系统型号及版本为Ubuntu 18.04,本文借助环境管理器Anaconda管理相关的实验环境,Python版本是3.7。3.1 实验数据集3.1.1 NWPU VHR-10遥感数据集由650张有标注和150张无标注的遥感图像组成,由Google Earth和Vaihingen(Niemeyer等,2014)数据集裁剪形成,并被专家人工标注,具有极高的分辨率,一共有3651个实例。数据集中的类别有网球场、飞机、舰船、篮球场、田径场等十个类别。各个类别目标的尺度变化多样,分布地形的情况各不相同。在本文实验中以其中的7个类别为基类,用于基础训练阶段,其余3个类别(飞机,棒球场,网球场)为新类,基类样本数量不变,新类样本数量为K张。3.1.2 DIOR遥感数据集包括23463张遥感图像与190288个实例,是一种常用于遥感图像目标检测的大规模基准数据集。有着桥梁、烟囱、水坝、高速公路服务区等20类的目标,相较于NWPU VHR-10数据集,目标物体的多样性和尺寸的多样性都有所增加。图像的尺寸大小是800×800,分辨率为0.5—30 m。在本文实验中以其中的15个类别作为基础类别,另外5个类别(飞机,棒球场,网球场,火车站,风车)作为新类别,基类样本数量不变,新类样本数量为K张。3.2 评价指标选取在目标检测领域,评估算法模型精度的指标广泛采用均值平均精确度mAP(mean Average Precision),即各类AP的均值。AP表示某类目标的准确率在不同的召回率下的积分,将召回率Recall作为横轴,以准确率Precision作为纵轴,可以得到一条Precision-Recall曲线,对应类别Precision-Recall曲线下面的面积即为算法模型在该类别的AP。准确率和召回率的定义分别为 (9) (10)式中,TP、FP、FN分别表示真阳性、假阳性以及假阴性的个数。AP定义为 (11)mAP用于衡量模型的检测性能,计算公式如下: (12)式中,n代表类别的个数,代表第i类的精度。3.3 实验参数选取训练的神经网络模型使用SGD(Stochastic Gradient Descent)(史加荣 等,2021)作为优化器,Learning Rate设置为0.02,还在训练时使用Step策略,将训练的第16个和第22个Epoch时将学习率乘以0.1,降低学习率,使得梯度下降的速度减缓。在遥感数据集上进行训练时,由于图像尺寸的差异,对于NWPU VHR-10遥感数据集,将图像的尺寸统一调整为1024像素,即长边的长度为1024像素,图像的原始比例长宽比保持不变,而DIOR遥感数据集中的图像尺寸还是原来的800×800像素。从数据集中随机选择每类的K张图像进行实验,对NWPU VHR-10数据集采用的K值为3、5、10,对DIOR数据集采用的K值为5、10、20。实验都以使用ResNet101为主干网络backbone的Faster R-CNN为基础,所用数据集为基类的所有数据集和基新类制作的小样本数据集。3.4 本文算法和一些先进算法的对比实验为了体现出本文提出算法对于小样本目标检测任务的优越性,将本文算法与TFA(Wang等,2020)、FR(Kang等,2019)、FSODM(Li等,2021)、DeFRCN(Qiao等,2021)、MFDC(Wu等,2022)等算法进行对比实验,实验结果见表1和表2。注: 加黑数值表示最佳算法结果数据。表1NWPU VHR-10数据集各方法的对比实验结果Table 1Comparative experimental results of each method on the NWPU VHR-10 dataset注: 加黑数值表示最佳算法结果数据。表2DIOR数据集各方法的对比实验结果Table 2Comparative experimental results of each method on the DIOR dataset基于元学习的方法FR在实验结果上不如基于微调的TFA方法优越。在基于微调的TFA实验中,先在大量基类上进行训练,网络通过大量的与新类同源数据集的基类,学习到了些许纹理特征,类无关的参数得到了训练,然后在制作的小样本数据集上微调网络参数,使得检测器可以快速地适应新类别的目标。FSODM专门针对遥感图像做了模块上的改进,效果好于经典方法TFA和FR。DeFRCN和MFDC方法是较先进的小样本目标检测方法,训练效果相比其他方法有所提升,但本文方法在检测性能上更具有优越性。在每组实验上,以ResNet101为backbone的本文方法在NWPU VHR-10和DIOR遥感数据集上的实验结果都超过了现有的最先进的方法。如图7和图8,为小样本新类在各方法下的结果,从展示出的对比结果图中能够显著地基线方法TFA的错检和漏检问题,与之相比,本文方法在所用的两个数据集中都有着优越的检测性能。(a) 飞机 (b) 棒球场 (c) 网球场(a) Airplane (b) Baseball field (c) Tennis court图7NWPU VHR-10 TFA和本文方法实验效果对比图Fig. 7NWPU VHR-10 comparative experimental results chart in TFA and the algorithm of this thesis(a) 棒球场 (b) 飞机 (c) 网球场 (d) 火车站 (e) 风车(a) Baseball fields (b) Airplane (c) Tennis courts (d) Trainstation (e) Windmill图8DIOR TFA和本文方法对比实验结果图Fig. 8DIOR comparative experimental results chart in TFA and the algorithm of this thesis3.5 本文算法各模块的消融实验为了证明本文所提出改进算法的各个部分对算法模型对于小样本类别目标的检测性能提升的有效性,本节根据本文算法主要模块的有无,对NWPU VHR-10和DIOR两类遥感数据集所做的四组消融实验,结果如表3、表4所示,第一组实验为对照组,用于与其他几组实验比较检测效果。表3、4中前两列分别为上述协同注意力和对比学习分支的简称,表格中的(√)代表该模块是否添加进此次实验,后面3列为实验效果。注: 加黑数值表示最佳算法结果数据。表3NWPU VHR-10数据集消融实验结果Table 3Results of ablation experiments on the NWPU VHR-10 dataset注: 加黑数值表示最佳算法结果数据。表4DIOR数据集消融实验结果Table 4Results of ablation experiments on the DIOR dataset表3和表4中的实验结果充分体现了本文所提出算法中各部分的有效性,从实验结果的第一行和第二行可以看出,在加入协同注意力模块后,模型对于新类的检测效果有所提升。图9为加入注意力模块前后的特征图对比。可见:第一行为注意力模块处理之前的特征图,第二行为注意力模块引导特征分布后的特征图,第三行为处理的原图像。从图中加入协同注意力模块前后的特征图对比可以看出,第一行特征图和第二行特征图相比,背景无关特征被削弱,协同注意力模块处理后的特征图中目标的特征信息更加明显,目标更易被模型检测到,重要的局部信息更加突出,能够指导模型关注重点的目标区域。(a) 飞机 (b) 棒球场 (c) 网球场(a) Airplane (b) Baseball field (c) Tennis court图9加入协同注意力模块前后特征图对比Fig. 9Comparison of feature maps before and after adding co-attention module从表3、4中实验结果的第一行和第三行可以看出,对比学习分支的加入,提升了模型整体对新类目标的检测性能,充分证明了本文提出的对比学习损失函数的有效性和在此基础上构建的对比学习分支的优越性。从表3、4中第四行的实验结果可以看出,本文设计的基于协同注意力和对比学习分支的改进算法的有效性。从表3、4中消融实验的结果,本文所提算法的协同注意力模块和对比学习分支都十分必要且有效,在提升遥感图像小样本目标检测任务的性能方面都起到了重要作用,在两个遥感数据集上的消融实验结果也直接有力地证明了本文算法各部分的有效性。从展示的部分实验效果图(图7和图8)可以看出,本文设计的改进算法能在小样本的条件下对遥感图像实现较好的检测结果。","result":"实验在Linux系统环境下,使用NVIDIA TITAN Xp GPU和Anaconda管理Python 3.7环境进行。实验使用了NWPU VHR-10和DIOR两个遥感数据集,分别包含3651和190288个实例,涵盖多个类别,用于评估小样本目标检测算法。评价指标采用mAP,通过计算Precision-Recall曲线下的面积来衡量模型性能。\n\n实验中,使用SGD优化器和Step学习率调整策略,对不同数据集调整图像尺寸,并从数据集中随机选择K张图像进行训练。基础模型采用ResNet101作为Faster R-CNN的主干网络。本文算法与TFA、FR、FSODM、DeFRCN和MFDC等先进算法进行对比,结果显示本文方法在两个数据集上均取得了最佳性能。\n\n消融实验进一步证明了本文算法中协同注意力模块和对比学习分支的有效性。协同注意力模块通过引导特征分布,增强了目标特征信息,使模型更容易检测到目标;对比学习分支则提升了模型对新类目标的整体检测性能。消融实验结果表明,这两个模块对于提升遥感图像小样本目标检测任务的性能至关重要。\n\n实验效果图展示了本文算法在小样本条件下对遥感图像的优越检测结果,与基线方法TFA相比,本文方法显著减少了错检和漏检问题。","language":"zh"},{"title":"光学遥感图像的小样本目标检测","chapter":"4 结论","content":"遥感图像小样本目标检测任务存在定位不准和分类混淆的问题。本文在TFA方法的基础上,提出一种基于协同注意力模块和对比学习分支的小样本目标检测算法。本文具体贡献包括:(1)设计了协同注意力模块,从大量基类中学习与目标定位相关的注意力,提升模型对小样本类别的定位性能。(2)设计了对比学习分支,学习更好的特征表示,提高了分类的准确率。(3)提出一种基于微调的迁移学习范式的小样本目标检测模型。首先,对训练样本进行传统数据增强和Mosaic数据增强,然后利用协同注意力模块生成的背景衰减注意力和空间感知注意力,在大量的基础类别数据集中提取与目标定位相关的注意力,然后应用到微调阶段中,赋予特征点在多个维度上的不同权重。之后设计出对比学习分支,用于引导相同类别的特征分布一致,从而减少对于相似类别的误判,将同类别样本和不同类别样本之间的相似度进行比较,同类目标的特征向量分布越相似,不同类的向量分布越不相似,则对比损失函数值越小,通过反向传播扩大不同类别间特征的区分度,增大不同类别之间的距离,进而提升了模型的分类准确率,减少对新类目标的错误分类。最后,提出了基于微调的迁移学习范式的小样本目标检测模型,对充足的基类样本数据集训练,提取到充分的类无关信息,然后在小样本微调阶段只需要少量的新类样本就能训练适应特定类别的权重参数。为了证明所提算法的有效性,通过在NWPU VHR-10和DIOR2类遥感数据集上进行消融与对比实验,在每组实验下的准确率都比基线方法分别提高了25%和15%左右,也高于现有的其他先进方法。本文算法在实验中展现了检测的有效性与优越性,但对于尺度过大或过小的目标,算法在这些物体上的检测性能较差,同时,本文并未对小样本数据集进行数据的增强与扩充,没有实际地解决样本数量过少这一问题。因此,下一步将设计更好的网络的结构从而能覆盖到各个尺度的目标,并从特征层面对样本进行扩充。","result":"针对遥感图像小样本目标检测问题,提出了一种基于协同注意力模块和对比学习分支的算法。主要贡献包括:设计协同注意力模块以提升定位性能,引入对比学习分支以提高分类准确率,以及提出基于微调的迁移学习范式。通过在NWPU VHR-10和DIOR2数据集上的实验,验证了算法的有效性,准确率较基线方法显著提升。然而,算法在处理尺度异常目标时性能不足,且未解决样本数量不足的问题。未来工作将优化网络结构,增强特征层面的样本扩充。","language":"zh"}]
      周莲,何楚,汪鼎文,郭子琪
      2024, 28(7): 1693-1701. DOI: 10.11834/jrs.20243209
      光学遥感图像的小样本目标检测
      摘要:对遥感图像进行目标检测,具有广阔的应用前景。针对小样本背景下遥感图像目标检测任务存在特征提取不足、定位困难和分类易混淆的问题,本文提出了一种基于协同注意力模块和对比学习分支的小样本目标检测算法。首先,对训练样本进行数据增强操作,以扩充数据集规模;其次,提出了一种协同注意力模块,包括设计的背景衰减注意力和空间感知注意力,利用遥感图像丰富的背景与目标特征信息,指导网络关注与目标定位相关的重点信息,从而便于RPN网络生成更好的区域建议框,减少遗漏目标的概率,提升模型对小样本类别的定位性能;然后,设计了一种对比学习分支。基于设计的对比损失函数,通过联合训练策略,在训练时从特征学习逐步过渡到分类器学习,提高了分类的准确率;最后,设计出一种基于微调的迁移学习范式的小样本目标检测模型,分为基础训练阶段和微调阶段,在基础训练阶段借助充足的基类样本训练模型学习类无关的参数,在微调阶段使用制作的小样本数据集帮助目标检测模型适应特定类别目标,提升其检测性能。此外,本文以两阶段微调方法TFA(Two-stage Fine-tuning Approach)为基准,通过在遥感数据集NWPU VHR-10和DIOR上验证本文提出算法的有效性,结果显示本文算法在NWPU VHR-10和DIOR数据集上与其他基准算法相比,平均精度均有大幅提升。  
      关键词:目标检测;小样本学习;遥感图像;注意力机制;对比学习   
      119
      |
      328
      |
      0
      <HTML>
      <网络PDF><Enhanced-PDF><Meta-XML>
      <引用本文> <批量引用> 64962023 false
      发布时间:2024-07-31
    • [{"title":"基于脉冲神经网络微调方法的遥感图像目标检测","chapter":"1 引言","content":"目标检测是遥感图像信息提取的重要技术手段之一,具有广泛的应用场景(Li等,2020),包括危险检测、环境监测、变化检测、城市规划等领域(Cheng和Han,2016)。早期的目标检测算法大多是基于手工特征进行构建的,例如VJ(Viola Jones)检测器(Viola和Jones,2004)、HOG(Histogram of Oriented Gradients)检测器(Dalal和Triggs,2005)和DPM(Deformable Parts Models)检测器(Felzenszwalb等,2010)等。为了能更加有效的提取图像的特征,研究人员通过设计复杂的特征表示提升检测性能。但是随着手工特征的性能逐渐趋于饱和,传统的目标检测算法发展遇到了瓶颈,难以适应海量复杂遥感图像数据目标检测的需求。随着计算机硬件发展的快速进步和GPU支持的深度学习算法的涌现,深度神经网络,特别是卷积神经网络CNN(Convolutional Neural Networks)在视觉任务中表现出了比其他机器学习方法更加突出的性能优势。Girshick等(2014)首次将CNN应用于目标检测的任务中,提出了基于CNN特征区域(Regions with CNN features)的目标检测方法。此后,应用深度学习算法的目标检测模型开始快速发展,这类模型主要分为两类:两阶段检测模型和一阶段检测模型(Jiao等,2019)。两阶段检测模型的代表为R-CNN(Girshick等,2014)及其拓展版本(Girshick,2015;Ren等,2017;He等,2017),二阶段模型采用候选区域网络RPN(Region Proposal Network)生成包含目标的候选区域,然后通过分类网络和回归器得到图片或视频中目标的分类和位置。一阶段检测模型的代表为“You Only Look Once”(YOLO)(Redmon等,2016)及其拓展版本(Redmon和Farhadi,2017,2018;Bochkovskiy等,2020;Li等,2022)和“Single Shot MultiBox Detector”(SSD)(Liu等,2016),一阶段目标检测方法直接使用网络提取图片或视频中目标的特征并进行目标的分类和位置的回归。两类检测模型各有优劣,相比较而言,两阶段检测器检测精度更高,但是检测速度较慢,而一阶段检测器则相反,能做到实时目标检测但检测精度略逊于前者。为了提升网络的泛化性能,使其能够适应更加复杂的场景,研究人员尝试设计更复杂的网络结构以提高性能。但是随着神经网络性能的提升,往往会增加模型参数、复杂性、预测延迟、训练时间等,而且模型的计算开销和功耗也将显著提升。在特定的应用场景中(如移动设备、机器人或关键系统)可能需要针对将要部署的设备对模型进行优化或压缩(Menghani,2023)。对于船舶遥感图像,作为检测目标的船舶与海面背景相比,船舶目标较小、分布稀疏且不均匀。目前对于海面遥感图像进行传播目标检测大部分是使用人工神经网络(于野 等,2020;Fan等,2022;张涛 等,2022)。在船舶遥感图像检测任务中,由于其分布稀疏的特性,时刻使用人工神经网络对海面进行目标检测往往会因为没有船舶目标而浪费大量的计算资源。因此人们希望能开发高效的深度学习算法来面对这些挑战。脉冲神经网络SNN(Spiking Neural Networks)通过使用脉冲神经元作为计算单元来模拟信息在人脑中的编码方式和处理过程(Maass,1997),被认为是下一代神经网络发展的重要方向。与以数值计算及符号表征为基础的人工神经网络ANN(Artificial Neural Network)不同,脉冲神经网络在一段时间内通过一系列离散的脉冲组成的脉冲序列来传输信息。除此之外,当接收到脉冲信号时,脉冲神经元将输入整合到膜电位中,根据神经元之间突触连接权重的大小改变膜电位,并在膜电位达到一定阈值时释放脉冲信号,从而实现事件驱动计算。在脉冲事件和事件驱动计算的稀疏特性驱动下,SNN有着高效的计算能力和广泛的发展潜力。尽管SNN具有出色的发展潜力,但是目前的研究仅限于相对简单的任务(例如图像分类等),并且其网络结构较浅(Lee等,2016;Wu等,2019;Xiang等,2022),难以有效实现复杂场景的特征提取任务。由于脉冲神经元事件驱动的特性,当前缺乏类似反向传播BP(Back-propagation)算法的可扩展的训练方法,导致其目前应用范围有限。作为直接对SNN模型进行训练的替代,将训练好的ANN模型转换为SNN模型受到了广泛的研究(Cao等,2015;Diehl等,2015;Sengupta等,2019;Kim等,2020;Li和Zheng,2022)。这些方法通过将训练好的ANN模型的参数导入相同结构的SNN模型中,使得SNN能够借助预训练的参数,较好的应用于相同任务场景。ANN-SNN的转换方法在结构复杂,层数较深的SNN中取得了与原始ANN模型接近的性能,弥补了直接训练SNN时网络结构受限的问题。Kim等(2020)使用 ANN-SNN转换方法得到Spiking-YOLO模型,使SNN在目标检测领域也可以取得较好的检测效果。Luo等(2021)通过将原SiamFC网络转为SiamSNN,从而第一个在SNN领域实现了短延迟和低精度损失的目标跟踪任务。Patel等(2021)使用Unet-based SNN实现了对细胞显微图像的语义分割。与ANN能够直接接受图像的像素值并进行计算不同,SNN的输入是异步脉冲序列。为了计算简单并且满足SNN对输入信息的需求,可将输入图像归一化后的像素值作为模拟频率输入到SNN模型中。考虑到硬件部署SNN模型的合理性,将二维图像输入SNN之前需要对图像进行脉冲化,即对图像进行编码处理。ANN-SNN转换后通常使用频率编码在模型内部进行信息的传输,因此通常使用泊松编码将二维图像通过频率编码为脉冲序列之后送入网络模型中。目前存在较少SNN的研究针对船舶遥感图像进行目标检测,在使用ANN-SNN转换方法得到的SNN模型进行针对船舶遥感图像的目标检测任务中,存在着两个问题:一是SNN模型通常会因为转换层数的加深,每层转换后的误差积累,导致时间步长(time steps)小会使模型性能大幅降低;二是对于采用泊松编码对输入图像进行编码的过程中,需要较大的时间步长减少编码过程中的噪声对模型性能的影响,而该需求会减慢模型的检测速度同时增加模型的能耗。本文通过分析时间步长对模型性能影响的原因,采用了基于微调的逐层转换方法,使模型在转换过程中进行微调避免误差的积累,从而提高转换后模型的精度,进而实现了对舰船遥感图像的目标检测;同时针对现实部署的情况分析了泊松编码存在的问题,然后提出了泊松群编码方式,以更少的time steps实现对模拟频率的近似,降低了硬件部署时频率编码对SNN模型性能可能产生的影响。","result":"介绍了遥感图像目标检测的重要性及其在多个领域的应用,指出了早期基于手工特征的目标检测算法的局限性,并强调了深度学习算法,尤其是卷积神经网络在视觉任务中的优越性能。文中讨论了两阶段和一阶段检测模型的特点及其在检测精度和速度上的权衡。同时,指出了深度学习模型在泛化性能提升和模型优化方面面临的挑战。特别提到了脉冲神经网络(SNN)作为模拟人脑信息处理的下一代神经网络的潜力,以及SNN在计算效率和事件驱动计算方面的优势。然而,SNN在复杂任务中的应用受到训练方法的限制。文中还探讨了将人工神经网络(ANN)模型转换为SNN模型的方法,以及这些方法在结构复杂和层数较深的SNN中的应用。此外,针对船舶遥感图像目标检测任务,分析了现有SNN模型在时间步长和泊松编码方面存在的问题,并提出了基于微调的逐层转换方法和泊松群编码方式,以提高模型精度和降低硬件部署时的性能影响。","language":"zh"},{"title":"基于脉冲神经网络微调方法的遥感图像目标检测","chapter":"2 相关工作","content":"2.1 脉冲神经网络SNNSNN的工作原理是使用由一系列脉冲组成的脉冲序列在神经元之间传递信息。脉冲神经元将上一层的脉冲输出进行整合计算计算出神经元的输入后,将输入积累到膜电位中,当膜电位超过设定的阈值电压时,脉冲神经元将产生一个脉冲,并将神经元的模电压置为重置电位。由于SNN事件驱动的性质使其能以较少的功耗来实现进行相关操作,但是这也导致了难以对SNN模型进行训练,从而对各种应用场景下使用SNN造成了障碍。目前在SNN上进行训练的方法主要分为使用以突触时间依赖可塑性STDP(Spike Timing Dependent Plasticity)(Diehl和Cook,2015)为代表的无监督训练方法和以梯度替代(Lee等,2016)为代表的监督训练方法。STDP算法在生物学上更合理,但其性能低于监督学习算法。尽管有了这些方法使得SNN网络可以进行相关场景的训练,但是大多数工作只是应用于浅层SNN上的图像分类任务。由于SNN模型难以正常进行训练,因此有学者提出了使用预先训练的ANN模型参数应用于相同网络结构的SNN模型,即ANN转换为SNN的替代方法。Cao等(2015)提出了一种忽略偏置和最大池化的转换方法。Diehl等(2015)提出了使用数据对权重进行最大值归一化来提高深度SNN的性能。Sengupta等(2019)提出了将转换方法扩展应用到VGG和残差架构中。Kim等(2020)提出了使用数据对权重进行通道归一化,从而将神经元的激活率设定在合理范围,达到提高转换后SNN性能的目标。2.2 目标检测目标检测通常通过绘制边界框来定位图像或视频中感兴趣的单个或多个目标,然后识别它们的类别。目前目标检测模型大多基于CNN,通常分为以R-CNN系列为代表二阶段检测模型和以YOLO系列为代表的一阶段检测模型。本文采用YOLOv3-tiny作为转换前的目标检测模型。2.3 SAR遥感图像合成孔径雷达SAR(Synthetic Aperture Radar)是一种主动式的对地观测系统,在灾害监测、环境监测、海洋监测、测绘和军事等方面的应用具有独特的优势。目前存在多个能应用于目标检测的SAR图像数据集,例如MSTAR(The Moving and Stationary Target Acquisition and Recognition)数据集、AIR-SARShip(孙显等,2019)和SSDD(SAR Ship Detection dataset)数据集(Li等,2017)等。与光学图像不同,SAR成像波长更长,成像机制更复杂,成像结果也更难直观解读。目前SAR图像船舶图像数据集检测存在两个难点:一是在SAR成像过程中,随着入射角和方位角等散射条件的变化,目标的散射也发生着不同程度的变化,导致最终目标成像后其形象也多变;二是复杂背景也会对SAR图像中船舶目标检测识别造成干扰,在港口背景下,大量背景高亮散射点分布在船舶目标周围,难以准确建模,与船舶目标会发生一定程度的混淆,难以对船舶进行准确地定位与识别。","result":"介绍了脉冲神经网络(SNN)的工作原理,包括脉冲神经元如何整合脉冲输出、积累膜电位并在超过阈值时产生脉冲。讨论了SNN训练的挑战,包括无监督训练方法如STDP和监督训练方法如梯度替代,以及ANN到SNN的转换方法。此外,还概述了目标检测技术,特别是基于CNN的模型,如R-CNN和YOLO系列,并指出本文使用YOLOv3-tiny作为转换前模型。最后,讨论了SAR遥感图像在目标检测中的应用和挑战,包括SAR成像的复杂性、目标成像的多变性以及复杂背景对检测的干扰。","language":"zh"},{"title":"基于脉冲神经网络微调方法的遥感图像目标检测","chapter":"3 研究方法","content":"在目标检测任务中,需要识别多个目标并在其周围绘制边界框,对网络输出值的精度具有较高的要求。但是使用已经提出的ANN-SNN转换方法将目标检测模型转换为深度SNN模型时,往往需要较高的time steps来维持模型的性能,在time steps较低时,其性能会严重下降,难以正常进行目标检测任务。本文深度分析了这种性能下降的可能原因:脉冲神经元转换后会与原神经元之间产生误差,误差层层积累导致需要大量的time steps逐层弥补其精度来维持转换后SNN的性能。针对此问题,本文提出了逐层微调的ANN-SNN转换方法来克服这种由于模型过深造成的性能损失问题。3.1 基于微调的ANN-SNN逐层转换方法3.1.1 ANN-SNN转换理论从ANN到SNN转换的基本原则是将脉冲神经元与ANN里的模拟激活值相匹配,即每个SNN神经元是对ANN激活函数的无偏近似。时间窗口为,每个time steps为,脉冲发射率为,ANN之所以能转换为SNN,关键在于SNN的发射率与原始ANN的激活值正相关。通过SNN神经元对ANN激活函数的无偏近似,实现了ANN-SNN的转换。在典型的SNN网络中,需要确保神经元能根据输入的大小产生脉冲序列且在不丢失信息的情况下传输脉冲序列。在给定的time steps中,神经元的欠激活与过度激活都会导致信息丢失。为避免神经元的欠激活或过度激活,目前ANN-SNN转换方法使用权值归一化方法,使用训练数据集计算相应层的最大激活值,并使用该值对网络的权重进行归一化处理,从而使使深度SNN能快速有效的进行信息传输: (1)式中,和分别是第层和第层通道的索引,表示第层第通道的最大输出激活值,和表示第层的权重与偏置。和通过每个通道的进行归一化(与对输出激活值进行归一化的效果相同)。在下一层中,归一化激活值必须乘以以获得归一化前的原始激活值。目前常用的ANN-SNN模型转换的算法流程如算法1所示。算法1:常规ANN-SNN转换方法(使用权值归一化方法和脉冲神经元将ANN转换为脉冲网络)输入:训练好的ANN模型,用于归一化计算的数据集输出:转换后的SNN模型1. for in layers do:2. for in output channels do:3. 计算最大激活值4. for in layers do:5. for in output channels do:6. 计算归一化后的偏置7. for in output channels do:8. 计算归一化后的权重9. 使用脉冲神经元替换激活函数3.1.2 网络深度对转换精度的限制以往大部分转换方式是直接将ANN进行转换,对于进行图像分类等简单任务的浅层网络,转换后SNN模型能在少量time steps内较好地完成任务。但是对于进行目标检测的复杂网络,进行SNN转换后往往需要大量的time steps来保持SNN模型基本的性能。图 1展示了转换后SNN与转换前YOLOv3-tiny在Backbone网络模型中使用神经元替换激活函数后的各层输出误差随时间步长增加的变化情况,横坐标表示模型运行的时间步长,纵坐标则表示SSDD数据集上,在各层使用转换后SNN的激活率计算出的模拟输出与ANN输出之间的平均误差。在time steps增加至100步前,转换后SNN各层的输出误差在逐渐降低,但是误差降低速度随着层数的增加而降低。这意味着如果想要在深度SNN中获得较好的检测性能,通常需要大量time steps以减少与原模型之间的误差,但是这与为实现低功耗而对SNN展开研究的初衷不符。因此需要找到一种可以避免随着层数增加而导致误差积累的方法。图 1转换后SNN与转换前模型各层误差Fig.1Each layer error of the converted SNN and the pre-converted model3.1.3 逐层微调的ANN-SNN转换方法从3.1.2节的分析中得知在对ANN进行转换的过程中,随着层数的加深,转换后相应层数的误差会逐渐积累,最终导致模型的性能下降,需要大量time steps来对精度进行弥补。而ANN-SNN转换的基本思想在于使用脉冲神经元的脉冲发放率替换激活函数的激活值,而每层转换后的误差积累往往需要大量的时间步长来使平均脉冲发放率与激活值进行较好的替代。本文提出了一种微调后逐层转换的ANN-SNN转换方法,旨在通过在转换过程中加入对未转换的网络进行训练这一步骤,降低在转换过程中产生的误差的积累,从而减轻转换后SNN对时间步长的依赖。在进行训练的过程中,首先将输入送至已转换为SNN的部分网络中,计算得到网络中间值,之后将中间值作为未转换网络的输入,对未转换网络进行微调训练。在微调的过程中,未转换的部分网络使用已转换网络的输出为输入,从而减少已转换网络的误差对检测结果的影响。微调后再对网络进行转换,前面已转换的网络的误差积累在微调步骤后对检测结果的影响减少至较低程度。具体实现如算法2所示。算法2:逐层微调转换方法(逐层转换并对未转换的网络进行微调从而减少误差)输入:训练好的ANN模型: ann_model,用于归一化计算的数据集输出:微调转换后的SNN模型snn_model1. for in ann_model layers do:2. 将层及层前的网络记录为convert_model,层后的网络记录为finetunning_model3. 对convert_model进行转换4. for in output channels do:5. 计算6. for in output channels do:7. 计算归一化后的偏置8. for in input channels do:9. 计算归一化后的权重10. 使用脉冲神经元替换激活函数11. 将转换后的SNN模型记录为snn_model12. if is not the last layer do:13. 使用snn_model计算神经网络的中间输出14. 将该输出作为finetunning_model的输入,并对finetunning_model进行微调训练15. 将finetunning_model的参数送入ann_model中使用逐层微调的转换方式可应用于大多数任务中,给定相应任务的ANN模型,比如图像分类、目标检测、图像分割任务等,使用该转换方式即可获得可应用于相应任务的SNN模型。本文后续实验选择目标检测任务来验证本文提出算法的有效性。3.2 泊松群编码方式与ANN能够直接接受图像的像素值不同,SNN的输入是异步脉冲序列。在前面进行模型转化过程的讨论中,为快速获得对模型转换性能的对比,将输入图像进行归一化后的像素值作为模拟频率输入到SNN模型中。考虑到SNN模型硬件部署需求的合理性,将二维图像输入SNN之前需要对图像进行脉冲化,即对图像进行编码处理。本文转换后的SNN模型内部通过频率编码来实现信息的传输,因此需要将二维图像进行频率编码之后才能将图像送入SNN模型中。本节主要讨论在不同time steps条件下,讨论泊松编码对SNN模型性能产生的影响,并提出泊松群编码方式,可以减少编码过程对模型性能的影响。3.2.1 泊松编码泊松编码是脉冲神经网络中较为常用的频率编码方式。泊松分布适合于描述单位时间内随机事件发生的次数,这正好与脉冲发放率相对应。将输入数据编码为发放次数分布符合泊松过程的脉冲序列: (2)式中,为激发脉冲的个数是单位时间内与像素值成正比的激发频率。对于二维图像,每一个像素都能生成相互独立的泊松编码。预先设定总time steps个数为,每个time step内,每一个像素产生脉冲的概率与该像素值成比例,从而得到各个像素对应的脉冲序列,将该脉冲序列送入到SNN输入层,重复执行个time steps。而对编码后的脉冲序列矩阵进行叠加,也可以较好的将原图像进行复现。因此对于频率编码的SNN网络来说,在合理的time steps条件下,泊松编码方式能较好的将原图像编码成脉冲序列并将其送入SNN网络中。但是泊松编码在生成脉冲序列的过程中,同时会产生一定量的噪声信号。在对SNN进行训练的过程中,这部分噪声可能会提高模型的鲁棒性,但是在进行目标检测的过程中,这部分噪声会使模型性能降低。为了滤除噪声获得可靠的频率值,往往需要计算大量脉冲的平均值。因此,使用泊松编码通常需要大量time steps才能使输入频率较好地代替原图像的像素值。3.2.2 泊松群编码为了解决使用泊松编码在小time steps条件下因噪声信号导致模型性能下降的问题,本文提出了泊松群编码,对频率编码SNN的输入进行更加细粒度的编码。对于二维图像的每个像素,使用个相同的泊松编码器对其进行泊松编码,每个泊松编码器都会根据该像素点的像素值独立地产生脉冲,对这个脉冲求取平均作为该像素点的输入: (3)式中,表示一个time step,表示在该time step内编码器发出脉冲的数量,表示该像素点经过编码后的输出。在单个time step内,泊松群编码能实现更细粒度的输入,从而在相同的time steps条件下其输入频率与泊松编码器相比更接近输入图像的模拟脉冲频率。因此在对输入图像进行编码的情况下,泊松群编码能使转换后的SNN模型实现更好的检测性能。","result":"深入探讨了基于脉冲神经网络(SNN)的遥感图像目标检测方法。首先,分析了将人工神经网络(ANN)转换为SNN时面临的性能下降问题,指出了脉冲神经元转换后与原神经元之间的误差累积是导致性能下降的主要原因。为了解决这一问题,提出了一种逐层微调的ANN-SNN转换方法,通过在转换过程中加入对未转换网络的训练,降低误差积累,减轻对时间步长的依赖。\n\n在3.1节中,详细介绍了基于微调的ANN-SNN逐层转换方法。首先阐述了ANN-SNN转换的理论基础,包括脉冲神经元与ANN激活值的匹配、时间窗口和脉冲发射率的设置。然后讨论了网络深度对转换精度的限制,指出直接转换ANN到SNN在深层网络中需要大量时间步长来保持性能。最后,提出了逐层微调的转换方法,通过先转换部分网络,再对未转换网络进行微调,减少误差积累,提高转换后SNN的性能。\n\n在3.2节中,讨论了SNN的输入编码方式。由于SNN需要异步脉冲序列作为输入,而ANN可以直接接受图像像素值,因此需要对图像进行脉冲化编码。首先介绍了泊松编码,一种常用的频率编码方式,但存在噪声问题。为了解决这一问题,提出了泊松群编码方法,通过对每个像素使用多个泊松编码器并求平均,实现更细粒度的输入编码,减少噪声对模型性能的影响。\n\n通过逐层微调的ANN-SNN转换方法和泊松群编码,可以有效提高SNN在遥感图像目标检测任务中的性能,减少对时间步长的依赖,为SNN在实际应用中的部署提供了可行的解决方案。","language":"zh"},{"title":"基于脉冲神经网络微调方法的遥感图像目标检测","chapter":"4 实验结果与分析","content":"4.1 实验设置在遥感图像领域使用深度SNN进行目标检测的第一步是需要训练出能完成该任务的ANN模型,本文采用在相应数据集上进行100个epochs的训练的实时目标检测模型Yolov3-tiny作为转换前的目标检测网络,转换过程中使用最大激活值对权重进行通道归一化。在Spiking Jelly框架的基础上对Kim等(2020)中提出的IBT神经元与通道归一化进行实现。为验证本文提出方法的有效性,使用常规检测方法和本文提出的逐层微调转换方法在SAR舰船检测数据集AIR-SARShip 和SSDD上进行测试,并在VOC数据集上与其他研究进行对比。本文的SNN模型仿真基于pytorch深度学习框架与SpikingJelly脉冲神经网络深度学习框架,并在NVIDIA TITAN Xp上进行实验。4.2 实验结果4.2.1 实验指标介绍本文实验采用的指标为mAP(mean Average Precision),AP(Average Precision)是指在不同召回率下计算得到的精确率平均值,mean是对各类计算的AP求取平均值,也即该指标越高,则表明模型检测性能越好。对于目标检测任务,除类别正确识别外还需要衡量边框回归任务中框的准确率,这一准确率一般用交并比IoU衡量,根据选择的IoU不同,对mAP的评测方法也不同。本文采用的是PASCAL VOC的mAP评测方法,只评测IoU在0.5这个阈值下的AP值。PASCAL VOC数据集中需要计算各类的AP,再求取各类AP的平均值,从而得到mAP;而SAR目标检测数据集仅有舰船类别,因此计算mAP时只需要计算舰船的AP即可。4.2.2 基于微调的逐层ANN-SNN转换结果为了验证和分析本文提出的转换方法的有效性,本文以IBT神经元和通道归一化的方法对YOLOv3-tiny进行转换,并在AIR-SARShip和SSDD数据集上不同time steps条件下对比常规转换方法和本文使用的基于微调的逐层转换方法的影响,同时在PASCAL VOC数据集上进行与其他ANN-SNN转换方法进行性能的对比。如表1所示,当使用本文提出的转换方法的时候,转换后的模型在AIR-SARShip上达到了79.6%的mAP在SSDD数据集上达到了96.7%的显著性能。而转换前YOLOv3-tiny在SSDD数据集上的目标mAP为97.9%,已达到转换前性能的98.7%。而且采用本文的转换方法进行转换的SNN模型收敛速度更快,在SSDD数据集上仅需要50个time steps即可获得与转换前模型相近的性能,而AIR-SARShip数据集上100个time steps即可获得较好的检测性能。常规转换方法在SSDD数据集上需要100个time steps,在AIR-SARShip数据集上180个time steps才能使模型检测性能稳定,且稳定后的模型性能与转换前性能存在较大差距。这一对比说明了本文提出微调转换方法的有效性,能使转换后SNN模型在少量time steps条件下即可较好地实现对船舶目标的检测。表1微调转换方法在SSDD与AIR-SARShip的实验结果Table 1Experimental results of fine-tuning conversion method in SSDD and AIR-SARShip除此之外,如果不使用本文提出的转换方法,在较小的time steps条件下,转换后的SNN模型性能会大幅下降,在20个以内time steps条件下,无法检测AIR-SARShip中的舰船。这说明了本文转换方法使得转换后的模型对时间步长的依赖程度较低。为更直观地观察到本文提出方法与常规转换方法的对比,图 2展示了随着time steps的增加,使用本文转换方法转换的SNN模型在SSDD数据集上部分图像的可视化结果。最左边的图片为YOLOv3-tiny模型的检测结果,也是转换后模型希望复现的结果。通过图片可以观察到,本文提出的微调转换方法在10个time steps即可实现对船舶的检测,而常规转换方法需要至少50个time steps才能实现对船舶目标的检测。图 2SSDD数据集的目标检测结果(微调转换方法 VS 常规转换方法)Fig.2Object detection results on SSDD dataset(Fine-tuning conversion method VS conventional conversion method)除此之外本文提出的转换方法与其他研究(Kim等,2021)在PASCAL VOC数据集上的结果进行了对比。本文提出的算法在500个time steps条件下mAP达到了49.2%,Kim(2021)提出的算法在相同time steps条件下mAP为46.66%。与其他算法相比,本文提出的算法不仅可以应用于SAR遥感图像领域,在其他更复杂的任务中也具有较好的性能。4.2.3 泊松群编码实验结果为了验证泊松群编码的有效性,本文使用神经元个数不同的泊松群编码与泊松编码在SSDD数据集上对比观察不同编码方式对模型检测性能的影响程度。具体结果如图 3所示,虽然随着time steps的增加,使用泊松编码器和使用泊松群编码器的检测性能均逐渐逼近以模拟频率作为输入的情况,但是泊松群编码器能够以更小的time steps达到与模拟频率同样的性能。而且随着神经元群数目的增多,将输入图像编码后对模型性能的影响越小,10个time steps即可获得输入模拟频率的90%以上的性能,80个time steps即可获得输入模拟频率的95%以上的性能。图 3不同编码方法在SSDD数据集上的实验结果Fig. 3Experimental results of different coding methods on SSDD dataset","result":"首先介绍了在遥感图像目标检测中使用深度脉冲神经网络(SNN)的实验设置,包括使用Yolov3-tiny模型作为基础,通过最大激活值进行权重的通道归一化,并在Spiking Jelly框架上实现IBT神经元。实验在AIR-SARShip、SSDD和VOC数据集上进行,以验证所提方法的有效性。\n\n实验结果部分,首先介绍了mAP作为主要的评估指标,它衡量了模型在不同召回率下的精确率平均值。作者提出的基于微调的逐层ANN-SNN转换方法在AIR-SARShip和SSDD数据集上表现出色,转换后的模型在少量时间步长下即可达到与转换前相近的性能,且收敛速度更快。具体来说,在SSDD数据集上,转换后的模型在50个时间步长下就达到了与转换前模型相近的性能,而在AIR-SARShip数据集上,100个时间步长即可获得较好的检测性能。\n\n此外,泊松群编码实验结果表明,使用泊松群编码器的模型在较少的时间步长下就能达到与模拟频率输入相近的性能,且随着神经元群数目的增加,模型性能受影响的程度越小。\n\n最后,作者提出的算法在PASCAL VOC数据集上与其他研究进行比较,显示出在500个时间步长下,mAP达到了49.2%,优于Kim等人在2021年提出的算法,证明了所提算法不仅适用于SAR遥感图像领域,也能在更复杂的任务中表现出良好的性能。","language":"zh"},{"title":"基于脉冲神经网络微调方法的遥感图像目标检测","chapter":"5 结论","content":"本文首先通过对神经元替换的各层输出与转换前各层输出进行比较,分析深层SNN转换后需要大量time steps来维持转换后模型性能的原因,并提出了基于微调的ANN-SNN转换方法;其次在SAR舰船检测数据集(SSDD、AIR-SARShip)观察不同time steps下不同转换方法与转换前YOLOv3-Tiny的检测性能,在常规目标检测数据集PASCAL VOC上进行了测试,并与其他的研究进行对比;提出了泊松群编码方式,在SSDD数据集上测试在不同time steps条件下对比泊松编码与泊松群编码的模型性能对比。通过上述实验得出以下结论:(1)随着转换的SNN模型层数的增加,SNN模型各层的输出与转换前ANN模型的输出相比误差逐渐积累,因此造成了使用常规转换方法转换后的深度SNN模型需要较大的time steps使模型性能稳定,并能够正常进行目标检测任务。(2)采用微调的SNN转换方法能够使转换后模型在少量time steps条件下获得较好的目标检测性能,在SSDD数据集上仅需要10个time steps即可检测出大部分目标。而且相较于常规转换方法,微调的SNN转换方法可以使SNN模型保持更多的性能;在PASCAL VOC数据集上与其他研究进行比较,在相同time steps条件下本文提出的算法具有较优越的性能。(3)本文提出的泊松群编码方法可以在少量time steps的条件下获得与输入模拟频率近似的检测性能,而且随着神经元群数目的增加,输入图像编码后对模型性能的影响越小。在100个time steps后所有泊松群编码方式达到了模拟频率输入性能的97%以上,充分说明了泊松群编码的有效性。目前本研究中提到的微调的转换方法需要逐层进行转换,对于层数较少的YOLOv3-Tiny可以在合理的时间内完成转换,但对于层数过深的网络,逐层转换需要在微调阶段耗费大量时间。下一步拟通过研究在各层进行微调对模型性能的影像,从而使得该方法可以适用于更深层的网络,使网络可以在较短时间内完成微调转换,扩大该方法的适用范围。","result":"通过比较神经元替换后各层输出与转换前输出,分析了深层SNN模型性能下降原因,并提出了基于微调的ANN-SNN转换方法。在SAR舰船检测数据集和PASCAL VOC数据集上进行了实验,验证了微调方法在少量time steps下能获得较好的目标检测性能,与常规方法相比性能更优。同时,提出了泊松群编码方式,实验表明其在少量time steps下能获得近似模拟频率的检测性能,且随着神经元群数目增加,对模型性能影响减小。但逐层微调转换在深层网络中耗时较长,未来研究将探索各层微调对性能的影响,以扩展该方法的适用性。","language":"zh"}]
      郭柏麟,黄立威,路遥,张雪涛,马永强
      2024, 28(7): 1702-1712. DOI: 10.11834/jrs.20243272
      基于脉冲神经网络微调方法的遥感图像目标检测
      摘要:遥感影像目标检测问题是视觉图像识别任务的重要研究内容之一,但是在船舶遥感图像中,船舶目标小且分布稀疏,使用传统的人工神经网络(ANN)进行目标检测往往会浪费大量的计算资源。脉冲神经网络(SNN)的事件驱动与低功耗特性可以极大地节省能量消耗同时解放更多的计算资源。然而SNN神经元由于其复杂动态与不可微调的脉冲操作,难以正常进行训练。作为替代,将训练好的ANN转换为SNN可以有效规避这一问题。对于转换后的深层SNN,需要大量时间步长(time steps)来维持其性能。这一过程需要大量的计算资源并对产生较大的延迟,与低功耗的研究初衷相违背。本文研究了转换后SNN需要大量time steps维持模型性能的原因,并提出了新的转换方法,基于微调的逐层转换方法;考虑硬件部署的合理性,提出了泊松群编码,相比泊松编码,泊松群编码输出的脉冲序列噪声更小,对模型性能的影响更小。实验表明,微调转换方法在SAR舰船检测数据集(SSDD、AIR-SARShip)上取得与转换前模型(97.9%、79.6%)相近的性能(96.9%、70.3%),在PASCAL VOC数据集上也获得了较好的检测性能(49.2%),而且对于泊松群编码,time steps相同的条件下神经元数目越多,对模型性能的影响越小,时间步长较少的条件下即可获得与输入模拟频率近似的性能。本文的研究可以提升转换后SNN的性能,减少转换后SNN对time steps的需求,并为SNN的硬件部署提供了一个切实有效的输入编码方法。  
      关键词:脉冲神经网络;目标检测;船舶遥感图像;ANN-SNN转换;泊松群编码   
      64
      |
      306
      |
      0
      <HTML>
      <网络PDF><Enhanced-PDF><Meta-XML>
      <引用本文> <批量引用> 64961748 false
      发布时间:2024-07-31
    • [{"title":"基于类脑脉冲神经网络的遥感图像检测算法","chapter":"1 引言","content":"遥感图像的目标检测作为遥感影像解译的重要环节,在国防领域和国民经济领域有着广泛的应用。在水陆运输管控(El Shair,2003)、智能交通调度规划(Chen等,2021)、国土资源调查(李德仁 等,2021)和战场态势侦察感知等多种重要应用场景中,准确检测出遥感图像中的水面船舶与地面车辆建筑等目标是一项重要的应用任务。而遥感图像的特点,如图像场景复杂、地物类型多、目标偏小且密集、目标尺度不一等,导致遥感图像目标检测极具挑战性。以合成孔径雷达SAR(Synthetic Aperture Radar)为例,其提供的全天候、全天时的高分辨率图像由于成像机理和光学图像差别极大,辨别图像场景干扰与遮挡复杂多变,难以判读(张云鹏 等,2019)。因此准确地对遥感影像进行目标检测一直是遥感研究的重点之一。传统遥感图像目标检测算法可分为基于模板匹配的算法和基于传统机器学习的算法。基于模板匹配的算法主要包括模板生成和相似性度量两个步骤。该类算法简单易行,但鲁棒性差,无法适应目标的多变性(An等,2010)。随着人工智能的快速发展,以卷积神经网络为代表的深度学习方法也在遥感目标识别检测解译方面发挥了日渐重要的作用。基于深度卷积神经网络的目标检测网络在遥感图像检测上取得了长足的进步(Zhu等,2021;柳思聪 等,2023)。使用深度卷积神经网络的目标检测算法分为两阶段算法与一阶段算法两大类别。其中两阶段检测方法以R-CNN(Girshick,2015)为代表,两阶段方法将模型分为分类器训练与边界框回归两个阶段(沙苗苗 等,2022)。但是在此类方法中,每个候选区域都需要分别进行特征提取,候选区域的生成与特征提取割裂开来,导致检测效率较低(Zhang等,2019;沙苗苗 等,2022)。一阶段方法以YOLO(Redmon等,2016)系列算法为代表。首先,其将一系列具有不同尺度和纵横比的锚点引入到网络中,并且这些锚点在每个空间位置上都是预先定义好的;然后,通过交并比分数区分和训练正负样本。由于一阶段方法同时完成分类和定位任务,因此效率相比两阶段方法得到了提高,也成为了当前主流的目标识别方法(Pham等,2020;Gao等,2021;许泽宇 等,2022)。近年来随着transformer架构的发展,也出现了例如DETR(Carion等,2020)等部分使用transformer的目标检测新框架。DETR将目标检测任务转化为一个序列到序列的问题。它将输入图像划分为一系列位置编码的特征向量,然后将这些特征向量作为序列输入Transformer模型用于处理图像特征并生成目标的位置和类别。相比其他目标检测框架,DETR不需要预定义的锚框或候选框,并能通过自注意力机制捕捉目标间的全局关系。但此类基于Transformer的方法需要大量的计算资源进行自注意力机制与多头注意力机制的运算,限制了此类框架在资源受限环境中的应用。虽然以卷积神经网络为代表的第二代人工神经网络在某种程度上受到了生物神经网络的启发,但其与生物大脑神经元在动力学过程上有着本质的不同。大脑对信息的高效处理依赖于神经元在时域上动作电位的变化与放电,这与主流的卷积神经网络中的激活神经元工作方式截然不同,因此需要在神经元动力学过程模拟层面采用更加仿生的模型。脉冲神经网络SNN(Spiking Neural Networks)作为新一代神经网络,在生物学原理上高度近似大脑神经元(Ghosh-Dastidar和Adeli,2009)。相较于第二代人工神经网络的神经元使用实数值激活来传递信息,脉冲神经网络通过采用脉冲序列来表示信息,在空间域和时间域两个维度上传递信息,以模拟人类大脑中的信息编码和处理过程。在脉冲事件稀疏性的驱动下,SNN具有计算高效性和生物可解释性的特点(Tavanaei等,2019),并具有更高的计算效率和更快的推理速度。目前,基于SNN的算法主要可分为3类:(1)基于脉冲时间依赖可塑性(STDP)的无监督学习方法。它根据突触前后神经元之间的放电延迟来修改连接突触的权重(Kheradpisheh等,2018)。然而,由于STDP仅利用局部突触可塑性进行调整,无法实现突触个体与整个神经系统目标的协调,因此难以应用于大规模深度网络。(2)直接监督学习。近年来SNN在利用反向传播提高网络性能方面取得了显著进展。该方法在正向传播过程中使用Heaviside阶跃函数生成脉冲信号,在反向传播过程中使用替代梯度的近似不可微函数。最近的研究表明,SNN能够有效利用通用深度学习框架通过时间反向传播进行学习(Che等,2022)。然而,由于脉冲神经网络通过多个时间步对输入信息进行编码,并且由于存在膜电位衰减等时域上的动力学过程,这种方法需要将脉冲神经网络在全部时间步上展开以进行梯度的反向传播,这导致内存和时间开销非常大,从而令直接训练SNN变得十分困难。(3)基于源神经网络转换的间接有监督学习。它的步骤是首先以特定结构训练一个卷积神经网络模型,然后利用脉冲神经元和激活函数之间的关系将学习到的权重迁移到具有相同结构的脉冲神经网络中。这种方法能够充分利用卷积神经网络模型成熟的拓扑结构与精度优势,并发挥类脑脉冲神经网络的高能效、低延迟和高生物可解释性的优势。随着SNN的能效与仿生性优势凸显,SNN也被应用于遥感图像分类等任务中(Niu等,2023),但在目标识别等更为复杂的任务中仍然面临训练困难等问题。综上所述,本文首次提出了一种基于转换算法的类脑脉冲神经网络用于对遥感图像进行目标检测。首先构建了一个带有动态裁剪阈值的单阶段目标检测神经网络作为源网络进行预训练,得到了一个具有较高精度的源目标检测网络;随后借助训练过程中得到的裁剪阈值确定激活值范围,通过激活神经元与脉冲神经元的映射关系将源网络转换为类脑的脉冲神经网络。最后,将转换后的类脑脉冲神经网络在SSDD(SAR-Ship-Detection-Datasets)和RSOD两个公开遥感数据集上进行测试。","result":"介绍了遥感图像目标检测的重要性及其在多个领域的应用,包括水陆运输管控、智能交通调度规划、国土资源调查和战场态势侦察感知等。遥感图像目标检测面临诸多挑战,如图像场景复杂、目标偏小且密集、尺度不一等。传统算法包括基于模板匹配和传统机器学习的方法,但存在鲁棒性差和适应性不足的问题。深度学习方法,尤其是卷积神经网络,在遥感图像检测中取得了显著进展,分为两阶段和一阶段算法。然而,两阶段方法检测效率较低,而一阶段方法虽然效率提高,但存在内存和时间开销大的问题。随着transformer架构的发展,如DETR,虽然能捕捉目标间的全局关系,但计算资源需求大。类脑脉冲神经网络(SNN)作为新一代神经网络,在生物学原理上高度近似大脑神经元,具有计算高效性和生物可解释性。SNN的算法主要分为基于STDP的无监督学习、直接监督学习和基于源网络转换的间接有监督学习。本文提出了一种基于转换算法的类脑脉冲神经网络用于遥感图像目标检测,通过构建单阶段目标检测神经网络作为源网络进行预训练,然后转换为脉冲神经网络,并在两个公开遥感数据集上进行测试。","language":"zh"},{"title":"基于类脑脉冲神经网络的遥感图像检测算法","chapter":"2 方 法","content":"本文提出的类脑脉冲神经网络的遥感图像检测算法流程图如图1所示。算法主要分为3个部分:源网络的构建、源网络预训练与类脑脉冲神经网络转换。首先,根据类脑脉冲神经网络转换原理的特点搭建了一个目标识别神经网络作为源网络,随后将源网络进行预训练,最后根据训练参数将源网络转换为类脑脉冲神经网络。图1算法流程图Fig. 1Algorithm flow chart2.1 脉冲神经元模型作为SNN的基本计算单位,IF神经元模型是目前SNN中最常见的脉冲神经元之一。IF神经元的动力学过程可以描述为充电、放电和重置3个阶段。设t时刻下神经元的膜电位为,神经元接受的电压输入为时刻时神经元的膜电位为,充电阶段指脉冲神经元的膜电位接收来自突触前神经元加权输入的膜电压的过程,IF神经元的充电方程为 (1)由于脉冲神经元都是有记忆的,因此不仅取决于当前时刻的输入,还取决于上一个时刻末的膜电位。若使用离散的差分方程来近似连续的微分方程,则IF神经元的充电方程为 (2)脉冲神经元的信息传递依靠脉冲进行,当神经元的膜电位超过阈值电压时,神经元会释放出一个脉冲。这个过程也即脉冲神经元的放电,放电方程可以描述为 (3)式中,为判断是否放电的阶跃函数: (4)最后,因为释放脉冲会消耗神经元之前积累的电荷,因此膜电位会有一个瞬间的降低,即脉冲神经元膜电位的重置。在SNN中,膜电位的重置方式有两种:硬重置和软重置。硬重置指神经元在释放脉冲后,膜电位会被重置为固定的重置电压;而软重置指神经元在释放脉冲后会减去阈值电压。由于硬重置在放电时忽略了超过阈值电压的电位而直接将膜电位重置为固定的阈值电压。在多次神经元的充电—放电—重置循环下,逐渐累积的被忽略电位有可能导致神经元脉冲发放率低于预期,从而降低脉冲神经元的信息表征能力。为了更好地表征信息,本文选择软重置。硬重置与软重置的区别如图2所示。图2在脉冲神经元的两种重置方式下,膜电位变化与神经元放电的示意图Fig. 2Diagram of membrane potential change and neuron firing under two reset modes of pulsed neurons根据上述定义便得到了一个IF脉冲神经元完整的动力学过程。为了避免混淆,使用来表示IF神经元在充电后,释放脉冲前的膜电位;使用来表示神经元释放脉冲后的膜电位。至此,可以使用充电、放电和重置3个离散方程来描述IF脉冲神经元: (5) (6) (7)2.2 脉冲神经网络转换根据脉冲神经元的动力学过程分析可以发现,在SNN中信息通过二值化的脉冲进行传递,因此在SNN网络中只会传递非负的脉冲激活值,在固定时间长度内单个脉冲神经元会产生特定的脉冲发放率。而对IF脉冲神经元的脉冲发放率进行分析则可以发现,当阈值电压一定时,IF神经元的脉冲发放率会随着输入的增大而线性增加,这与卷积神经网络中的Relu激活函数十分相似(图3)。图3卷积神经网络中的ReLu神经元与脉冲神经网络中的IF脉冲神经元的输出对应关系(设脉冲神经元中的阈值电压)Fig. 3The output correspondence between ReLu neurons in artificial neural network and IF neurons in spikingd neural network (The threshold voltage Vth of the spiking neuron is set to 1)以一个卷积神经网络为例,若某一层由卷积层和ReLu激活函数构成,卷积层的权重和偏置为和,则上一层激活后的输入经过卷积层与ReLu激活层后的激活值可以表示为 (8)通过统计数据集中所有激活值从而确定此层的最大激活值为,则可以获得归一化至0—1范围内的归一化激活值: (9)而在与之对应的类脑脉冲神经网络中,脉冲神经元在时间步后的累计膜电位可以表示为所有时刻下,前一层脉冲神经元释放的脉冲经过加权后的膜电压减去释放脉冲带来的电压降: (10)式中,表示层脉冲神经元的阈值电压将上式表示为脉冲发放率的形式为 (11)由式(11)可以注意到,始终不会超过,当时间步较长时式(11)的最后一项可以忽略。至此结合式(8)和式(11)可以得到卷积神经网络ReLu激活与IF脉冲神经元的激活映射关系。对于一个经过预训练的卷积神经网络,通过确定经过Relu层的激活最大值,即可将卷积神经网络卷积层的权重迁移至脉冲神经网络中,从而将其ReLu激活函数转换为IF脉冲神经元。但是通过对式(11)分析可以发现,脉冲神经网络的转换依赖于逐层确定ReLu激活函数的输出最大值,但是数据分布中若存在离群的极大值,则会需要为了表征这部分离群值而大大降低时间步的量化精度,从而影响转换性能。因此本文提出了一种基于动态裁剪阈值的激活函数层用来动态压缩激活值,带有动态裁剪阈值的激活函数可以表示如下: (12)式中,为可训练的参数。在网络构建时,将所有ReLu激活函数替换为带有动态裁剪阈值的激活函数,随后在训练中将的优化器施加一个正则系数γ使得在训练过程中不断降低,从而间接压缩了每一层的激活值范围。2.3 待转换网络构建在本文工作中,使用了一个基于YOLOv3(Redmon和Farhadi,2018)架构的单阶段方法的目标识别神经网络作为待转换的源神经网络,网络包含的输出两个尺度的输出头。脉冲神经网络的网络结构如图4所示。由于SNN中的信息采取二值化脉冲串的方式进行传递,因此在池化操作中,池化核在每个时间步时都仅由0或1构成,这种特性使得SNN无法直接按照ANN中最大池化的计算方式进行操作(Rueckauer等,2017),因此在源网络中采用平均池化替代最大池化操作。考虑到转置卷积可以通过学习可训练的卷积核权重来执行上采样操作。因此在对特征图合并时使用转置卷积代替上采样操作,从而使低尺度的特征图合并至更大尺度特征图时能够表征更多信息。最后将网络所有激活层替换为带有动态裁剪阈值的激活函数。图4源目标识别神经网络结构Fig. 4Architecture of source detection neural network","result":"提出的基于类脑脉冲神经网络的遥感图像检测算法分为三个主要部分:源网络构建、预训练和类脑脉冲神经网络转换。算法流程图展示了整个过程。2.1节介绍了脉冲神经元模型,特别是IF神经元模型,包括其充电、放电和重置的动力学过程。IF神经元的充电方程、放电方程和重置方式(硬重置和软重置)被详细描述,其中软重置被选用以更好地表征信息。2.2节讨论了脉冲神经网络转换,指出SNN中信息通过二值化脉冲传递,IF神经元的脉冲发放率与输入的增大呈线性关系,类似于卷积神经网络中的ReLU激活函数。通过分析,建立了卷积神经网络ReLU激活与IF脉冲神经元激活的映射关系,并提出了基于动态裁剪阈值的激活函数层以优化转换性能。2.3节描述了待转换网络的构建,使用了基于YOLOv3架构的目标识别神经网络,并对其进行了适应SNN的修改,包括采用平均池化和转置卷积,以及替换所有激活层为带有动态裁剪阈值的激活函数。","language":"zh"},{"title":"基于类脑脉冲神经网络的遥感图像检测算法","chapter":"3 实验结果与分析","content":"3.1 数据集与实验环境为了评估本文提出方法的性能,选择了SSDD(SAR-Ship-Detection-Datasets)和RSOD两个公开的遥感数据集进行了实验。两个数据集分别由数据图像和经过人工注释的标注框构成,分别包含船只与飞机目标。数据集的详细信息见表1与图5。表1数据集详细信息Table 1Datasets details图5两种数据集中的目标类别Fig. 5Diagrams of target categories in two datasets实验在运行Windows11的PC上进行,CPU为AMD(R)Ryzen7 5800x,显卡为Nvidia GeForce GTX 4090,本文所述方法使用Pytorch1.13深度学习框架搭建。在预训练源卷积神经网络时,使用Adam优化器进行训练,学习率为0.01,动态裁剪激活层的正则系数γ为0.2,预训练轮数为400。3.2 评价指标目标检测性能使用平均精度AP(Average Precision)进行度量,AP是用精度P为纵轴和召回率R为横轴的离散点绘制出的曲线下方的面积,即平均精度,AP可以综合地衡量模型的找全能力与找准能力,精度P和召回率R的计算方式为 (13)式中,TP代表检测结果为正样本且真实值为正样本的预测框数量,FP代表检测结果为正样本但真实值为负样本的预测框数量,FN代表检测结果为负样本但真实值为正样本的预测框数量。3.3 实验结果源网络训练完成后在测试数据集上进行测试,在SSDD数据集上,源网络能够达到89.9%的平均精度,而在RSOD数据集上则能够达到90.21%,从而验证了待转换的卷积神经网络在遥感数据集上目标识别效果的有效性。随后将网络按照提出的方法转换为类脑脉冲神经网络,再将转换后的网络在两个数据集的测试集上使用不同的时间步长进行测试。在测试时,对比了本文提出的采用动态阈值转换的方法与使用固定阈值进行转换的方法。结果表明在时间步足够大时()时,无论是否使用动态裁剪阈值,转换后的类脑脉冲神经网络都能达到接近源网络的性能。但是在时间步较低时,如图6和图7所示,采用动态裁剪阈值的转换算法能更快地达到更高的平均精度,从而验证了压缩激活值能够在低时间步时提供更多的信息表征能力。不同时间步下网络检测示意图如图8所示。图6转换后的类脑脉冲神经网络在RSOD数据集的检测性能Fig. 6Detection performance of transformed brain-inspired spiking network in RSOD dataset图7转换后的类脑脉冲神经网络在SSDD数据集的检测性能Fig. 7Detection performance of transformed brain-inspired spiking network in SSDD dataset图8不同时间步下转换的类脑脉冲神经网络检测效果Fig. 8Detection result of converted brain-inspired spiking neural networks in different time-steps为了进一步研究SNN在能量效率上的优势,本文从两种不同角度对SNN在能效上与源深度卷积神经网络进行能效对比测试。分别是SNN与源深度卷积神经网络在输入图像上的能耗以及SNN与源深度卷积神经网络在各自不同的计算平台上的能量消耗。在深度卷积神经网络中,大部分的能耗过程发生在卷积层中。其中,卷积核与特征图的卷积运算涉及大量的乘累加MAC(Multiply-Accumulate)操作中。而在SNN中,由于脉冲神经元的放电是二值化操作,网络能够仅在接收到脉冲放电时才会加至膜电位。因其仅在网络内部执行稀疏的累加AC(Accumulate)运算,也因此带来了能效上的巨大潜力。根据(Horowitz,2014)对运算操作的分析,在32位浮点乘累加操作中,乘运算消耗3.7 pJ,加运算占0.9 pJ,单次乘累加操作消耗为4.6 pJ。而在32位整数乘累加操作中,乘运算消耗3.1 pJ,加运算0.1 pJ。在此基础上,分别将源深度卷积神经网络与脉冲神经网络的浮点运算次数FLOPs(Floating-Point operations)与MAC或AC运算次数相乘,计算出深度卷积神经网络与脉冲神经网络的计算复杂度与能量消耗对比,如表2所示。可以看出,转换后的脉冲神经网络在精度接近源网络的同时,计算复杂度降低了近两个数量级的计算量,而在能耗上则降低了近200倍的能量消耗,在继承了ANN网络易于训练的特性与精度优势的同时,充分展现了其高稀疏度带来的巨大能效优势。表2转换后的类脑脉冲神经网络与源网络在单次推理时的能效对比Table 2Comparison of energy efficiency between converted brain-like pulse neural network and source network in single inference","result":"通过在SSDD和RSOD两个公开遥感数据集上进行实验,评估了基于类脑脉冲神经网络的遥感图像检测算法的性能。实验环境配置了高性能的CPU和GPU,使用Pytorch1.13框架进行模型搭建和训练。评价指标采用平均精度AP,以衡量模型的检测性能。实验结果显示,源网络在两个数据集上分别达到了89.9%和90.21%的平均精度,验证了其有效性。通过将卷积神经网络转换为类脑脉冲神经网络,并在不同时间步长下测试,发现在时间步足够大时,转换后的网络性能接近源网络。而在时间步较低时,采用动态裁剪阈值的转换算法能更快地达到更高的平均精度。此外,从能耗和计算复杂度的角度对比了SNN和源深度卷积神经网络,结果表明,转换后的脉冲神经网络在保持精度的同时,计算复杂度降低了近两个数量级,能耗降低了近200倍,展现了其高稀疏度带来的巨大能效优势。","language":"zh"},{"title":"基于类脑脉冲神经网络的遥感图像检测算法","chapter":"4 结论","content":"为了解决主流深度学习模型在遥感图像检测中能效低和生物可解释性差的问题,本研究首次提出了一种基于类脑脉冲神经网络的遥感图像检测算法。该算法的第一步是构建一个带有动态裁剪阈值的目标检测神经网络作为源网络进行预训练。然后利用训练过程中获得的裁剪阈值,通过映射源网络中的激活神经元和脉冲神经元的关系,将源网络转换为类脑脉冲神经网络。这种转换使得新的网络既能够保持源网络的高精度,又具备低延迟和高仿生性的特点。实验结果表明,在SSDD(SAR-Ship-Detection-Datasets)和RSOD两个公开的遥感数据集上,该方法能够以极低的损失将源网络转换为类脑脉冲神经网络,并在较少的时间步下实现高精度的遥感目标检测和识别。通过将所提方法与标准类脑脉冲神经网络转换算法进行对比,验证了所提出方法在低时间步下的性能优势。若能够将所提出算法与当前快速发展的神经形态硬件相结合,则能够最大程度上发挥类脑脉冲神经网络稀疏性与二值放电的仿生性带来的能效优势,这也是未来的发展方向。","result":"首次提出一种基于类脑脉冲神经网络的遥感图像检测算法,通过构建动态裁剪阈值的目标检测神经网络并将其转换为类脑网络,实现了高精度、低延迟和高仿生性。实验结果在SSDD和RSOD数据集上验证了算法性能,与标准转换算法相比具有低时间步下的优势。未来发展方向是与神经形态硬件结合,发挥能效优势。","language":"zh"}]
      段德鑫,路遥,黄立威,刘佩林,文飞
      2024, 28(7): 1713-1721. DOI: 10.11834/jrs.20243269
      基于类脑脉冲神经网络的遥感图像检测算法
      摘要:与第二代人工神经网络(ANN)相比,第三代类脑脉冲神经网络(SNN)由于其高能效、高仿生、可解释等特点,在遥感影像智能处理的高能效、高精度、高可解译方面具有较大的潜在优势。针对现有脉冲神经网络算法延时较大的问题,本文提出一种基于类脑脉冲神经网络的遥感图像检测算法。该算法首先搭建了一个带有动态裁剪阈值激活函数的目标检测神经网络作为源网络进行预训练,随后借助训练过程中得到的裁剪阈值,通过激活神经元与脉冲神经元的映射关系将源网络转换为类脑脉冲神经网络,在继承源网络较高精度的同时还具备了低延迟、高仿生的特点。在SSDD(SAR-Ship-Detection-Datasets)和RSOD两个公开遥感数据集上的实验结果表明,该方法能够以极低的损失将源网络转换至类脑脉冲神经网络,并能在低时间步下对遥感目标实现较高的检测识别精度。同时该方法能够在继承ANN网络易于训练的特性与精度优势的同时,充分展现SNN的高稀疏度的带来的巨大能效优势。  
      关键词:SAR;遥感图像;光学遥感;目标检测;深度学习;脉冲神经网络   
      190
      |
      374
      |
      0
      <HTML>
      <网络PDF><Enhanced-PDF><Meta-XML>
      <引用本文> <批量引用> 54637555 false
      发布时间:2024-07-31
    • [{"title":"Hybrid-Gird: 遥感图像细粒度分类可解释方法","chapter":"1 引言","content":"遥感图像目标细粒度分类任务是遥感图像智能解译领域的一项重要任务,基于光学遥感图像的目标细粒度分类技术已得到广泛应用,例如空域管制、态势评估、重要港口目标监视等(Zhang等,2023)。不同于对目标的大类进行判断(Chen等,2016),目标细粒度分类旨在对属于同一基础类别的对象进行子类划分,如区分巡洋舰、集装箱船、油轮等不同用途的船舶目标细粒度识别(Han等,2022)。目标细粒度分类任务的关键在于分类模型能否获得对目标类别具有决定性贡献的本质特征。Cheng等(2021)研究证明占据目标较大部分的结构对于分类的贡献度较低,细粒度分类通常强迫神经网络去学习、记忆相似类别间的细微差异,并去除一些共性特征。因此,只有少量的、适应于特定任务的特征会被建模。近年来,随着深度学习的迅猛发展,许多先进的目标细粒度分类网络被提出,并取得了显著的性能提升。已有研究(Nie等,2022;Xiong等,2022;Liang等,2020;Fu等,2019)主要基于深度卷积神经网络,即DCNN(Deep Convolution Neural Network),通过优化特征提取能力和增强特征来提升模型的性能。Yi等(2023)建立了一种基于本质特征挖掘的目标细粒度分类网络EFM-Net,该网络通过局部特征提取、注意力机制、局部区域特征融合以及迁移学习等策略,获取对细粒度类别特定的本质特征表示,并利用这些特征进行准确的分类,在FGSC-23、FGSCR-43、Aircraft-16等具有挑战性的遥感图像目标细粒度分类数据集上取得了优异的结果。尽管这些网络提升了遥感图像目标细粒度分类任务的精度,但深度学习网络模型的“黑盒”性质使人们仍然难以理解网络在细粒度分类任务上的决策依据,这不仅限制了深度神经网络通过反馈指导进行优化提升的可能,更使其无法被人类充分信任并应用于军事、医疗等重要领域。当前,国内外针对深度神经网络的可解释性分析方法可分为激活值最大化分析法、代理模型分析方法、归因分析法、扰动分析法、类激活图分析法及样例分析法等6类方法(Gong等,2022)。而围绕遥感图像智能解译任务,到目前为止,仍主要采用面向自然图像的可解释性分析方法,如IG、GuidedBackPropagation、SmoothGrad、occlusion(Petsiuk等,2018)等。然而,上述方法缺乏统一理论框架,在遥感图像目标细粒度分类任务中存在适用性有限、适用任务范围狭窄等问题。图像分类任务主要使用包括归因分析法、扰动分析法和类激活图分析法在内的归因技术来对分类网络的决策过程进行解释。该技术通过生成显著图(Saliency Map)来显示不同像素对模型的影响,又依据是否需要获取神经网络内部权重和参数分为内在和外在两种。内在归因方法通过神经网络的层将重要性得分从模型的输出反向传播到输入中的各个像素,例如Gradients、Grad-CAM(Selvaraju等,2017;Simonyan等,2014)。但是,由于分类网络内部卷积层的尺度较小,将其映射回原图时会导致显著图丢失细节信息,难以生成较为清晰的特征边缘。而细粒度分类任务主要关注相似目标中的可分性特征,因此,这种归因方法不能精确显示对分类影响最大的本质特征区域,无法对细粒度分类的决策依据给出清晰明确的解释。外在归因方法也即基于遮挡的扰动方法,通过对图像区域进行特定的扰动,如遮挡、添加噪声、修复和模糊(Petsiuk等,2018),观察扰动对模型输出的影响以确定扰动区域的重要性。由于其实现方法会赋予一些干扰像素较高的重要度,在显著图中引入了遮挡偏差,最终导致对细粒度分类网络的可解释工作出现误判。总的来说,现有可解释性分析方法对细粒度特征的描述能力有限,缺乏面向可解释性的细粒度分类任务的数学框架,以及在认知层面刻画本质特征、适用于遥感图像多尺度特性的可解释性分析方法。因此,本文针对现有可解释性分析方法描述能力有限、缺乏统一数学框架等问题,提出一种具有框架一致性、尺度自适应的可解释性分析方法,探究了目标本质特征对网络决策过程的影响情况,能够可视化地诠释细粒度目标本质特征,以期为目标细粒度分类网络的可信应用提供参考。","result":"介绍了遥感图像目标细粒度分类的重要性和应用场景,指出了细粒度分类任务的关键在于提取对目标类别具有决定性贡献的本质特征。随着深度学习的发展,基于深度卷积神经网络的分类网络在性能上取得了显著提升,但模型的“黑盒”性质限制了其在重要领域的应用。现有可解释性分析方法在描述细粒度特征和提供清晰解释方面存在不足。针对这些问题,本文提出了一种具有框架一致性、尺度自适应的可解释性分析方法,旨在可视化地诠释细粒度目标本质特征,提高分类网络的可信度。","language":"zh"},{"title":"Hybrid-Gird: 遥感图像细粒度分类可解释方法","chapter":"2 研究方法","content":"2.1 细粒度分类网络随着高分辨率遥感图像数据的持续增加,遥感图像的有效判读变得越来越重要,也使遥感图像的目标细粒度分类任务成为可能,然而,目标样本长尾分布限制了目标细粒度识别精度的提升,准确获取图像中目标的可分性特征是实现高精度目标细粒度分类的关键。当前领域内主要通过特征挖掘与样本增强来提高分类精度:一方面,通过使用先进的特征提取与融合网络,深度挖掘本质特征;另一方面,通过对目标样本进行数据增强,提高样本质量以优化模型性能。具体来说,PMG-V2是目标细粒度分类领域目前性能最优的模型之一(Du等,2022),该网络由两个相互作用的模块组成。通过一个创新的类别一致块卷积来鼓励网络学习特定粒度中类别一致的特征。在训练阶段,块状卷积使特征图在输入每个卷积层之前被分成一些块,每个块在卷积时不能获取临近部分的信息,这一操作并不会引入人工边界,同时延续了拼图补丁的益处。通过应用一致性约束,进一步在特征块进行卷积时从各个粒度获取具有意义的区域。EFM-Net是遥感图像目标细粒度分类领域目前性能最优的模型之一,由本质特征挖掘模块和数据增强模块组成。EFM-Net通过图像金字塔网络来提取更具代表性的特征,使用ConvNext骨干网络提取目标的本征特征,采用自注意力机制进行特征增强,提出双线性特征聚合池化方法,用以融合本征特征和注意力特征,最终得到最具可分性的本质特征,帮助网络更准确地定位判别区域,抓住对细粒度分类任务最关键的本质特征。在训练阶段,数据增强模块可以自适应地增强训练样本。本质特征挖掘模块和数据增强模块以无监督的方式相互加强以提取准确的特征。除了上述具有代表性的PMG-V2、EFM-Net网络之外,一些经典的分类网络,如ResNet18(He等,2016)也可用于目标细粒度分类任务。因此,本文以PMG-V2、EFM-Net和ResNet18为研究对象,试图建立一种可行的面向遥感图像目标细粒度分类任务的可解释性分析方法。2.2 内在与外在可解释性分析方法现有可适用于目标细粒度分类任务的可解释性分析方法主要专注于模型在测试样本点附近局部空间上的决策行为,也即目标级可解释(Yang等,2023)。根据可解释性分析方法构建过程是否基于网络权重及内部结构,本文将归因方法分为内在、外在2种,并总结了常见的内在、外在归因方法,详见表1。表 1本研究内在与外在归因方法Table 1Subjective and objective attribution methods in this study在内在归因方法中,由于Sigmoid函数的饱和问题或ReLU函数的零梯度区域,深度神经网络的梯度可能会有噪声,并存在梯度消失的问题,导致输出关于输入的梯度或内部层激活在视觉上存在噪音(Wang等,2020)。CAM/Grad-CAM将全局平均池化或最后一个卷积层的梯度信息映射回原图时会导致显著图丢失细节信息,难以生成较为清晰的特征边缘。即当卷积层最后一层得到像素的特征图时,若映射回像素的输入图像,其显示区域将以32个像素为单位。由于细粒度分类任务主要关注于相似目标中的微小细节,这种归因方法不能精确显示对分类影响最大的本质特征区域,无法对细粒度分类的结果给出清晰明确的解释。而外在归因方法,也即基于遮挡的扰动方法,普遍具有噪声和尺度问题。该方法随机生成遮挡图并利用其重要性加权以生成显著图,由于未对遮挡图中有效遮挡和无效噪声进行区分,因此,会错误地赋予一些无关像素较高的归因得分,导致生成的显著图中存在噪声。部分方法设计小尺度的掩膜图像(或遮挡窗口)并将其缩放成原始图像的大小进行遮挡,通过遮挡输入图像的不同部分,观察模型对遮挡的响应可以推断出模型对不同特征的重要性。在尺度缩放的过程中有模糊细粒度特征边缘的可能。2.3 目标细粒度分类任务的博弈竞争数学模型目前仍缺乏统一的数学框架对目标细粒度分类任务进行建模。为了在数学理论上定义目标细粒度分类任务所面对的问题,指导可解释性分析方法的理论设计和优化,本文从目标内部的特征博弈这一角度对目标细粒度分类任务进行数学建模。在细粒度任务的目标级博弈中,需要寻找少量的、适应于特定目标细粒度分类任务的专用特征,这些可分性特征在博弈中一定被赋予最大贡献。因此,细粒度分类任务的决策过程可定义如下: (1)式中,为目标级的内部特征集合,S为内部的独立特征子集,为内部的交互特征子集,为独立特征余项,为交互特征余项。针对目标细粒度分类任务,需要关注独立本质特征集和交互本质特征集当其被分配了最大贡献值时使得该目标细粒度分类问题有解。2.4 本质特征的特征博弈作用为研究目标细粒度分类问题中本质特征的特征博弈作用,首先,基于像素级的特征关系,可以将细粒度分类网络的映射过程按照泰勒级数展开如下:(2)式中,为网络模型,为输入图像,为局部邻域内的参考点。其次,基于局部特征关系,可以将细粒度分类网络的映射过程如下式展开: (3)根据式(2)和(3)的2种展开方式,对于输入网络的任意特征,可以把它对网络输出产生的影响归纳为独立效应和相互作用效应(Deng等,2023)。由于独立效应和相互作用效应都可以量化为特定的泰勒相互作用,所以网络的输出可以分解为不同输入特征的一般独立效应和输入特征集某一子集的一般相互作用效应之和。其中,。因此,表示特征的归因得分为 (4)式中为q的一般独立效应分配给特征的比率,为特征集中特征之间的一般相互作用效应分配给特征的比率。2.5 Hybrid-Grid算法流程基于目标细粒度分类的目标级博弈竞争数学模型(式(4)),本文提出了一种满足泰勒展开框架的可解释性分析方法Hybrid-Grid,该方法融合了像素级特征关系和图像局部特征关系,可以有效地提高目标细粒度分类任务的解释精度。将Hybrid-Grid扩展为特征博弈作用的重新分配,从交互的角度将混合归因重写为独立效应和交互效应的加权和,计算公式如下: (5)式中,为将权重比率整合入独立效应的计算函数,为将权重比率整合入相互作用效应的计算函数,表示所在特征集中的某一像素单元,代表泰勒展开项中的度向量,遮挡窗口,代表经第个窗口遮挡后参与交互的特征度向量集。其中,,对于个类别的细粒度判断问题,当目标归属于第个类别时,=1;否则,=0。Hybrid-Grid方法改进了现有外在归因方法中将特征集中所有的特征都分配独立效应的问题,避免引入不涉及分类器判断的无关特征,从理论上可以减少噪声;同时,还解决了现有内在归因方法中仅将特定神经元的独立效应分配给归因的模式问题,理论上可以提高对特征间相互作用的精准刻画,提高归因结果的精确度和准确性。本文提出的Hybrid-Grid可解释性分析方法的结构如图1所示,具体流程如下:首先将类激活函数对输入图像求偏导得到灵敏图,外在像素级特征提取算法对灵敏图进行遮挡后采样,对每个采样图像的结果灵敏度图取平均值,而后通过阈值进行限定,其公式为 (6)图 1遥感图像目标细粒度分类可解释方法Hybrid-Grid结构示意图Fig. 1Structure diagram of grid based explainable analysis method for essential features然后使用内在局部特征提取算法对图像分类结果预测类别进行反向传播,利用特征层上的梯度信息计算特征图每个通道信息的重要程度,根据重要程度对特征层每个通道进行加权求和,而后通过阈值进行限定: (7)由于内在局部特征是基于梯度构建,而深度模型的复杂度和高度非线性导致梯度存在梯度噪声、梯度饱和、连续性较差等问题,本文提出了基于网格的特征融合解释算法,在特征融合过程中经阈值过滤保留、利用网格法聚合本质特征,最终输出特征显著图,该过程如式(8)—(10)所示。在其遍历过程中,有部分像素点被丢弃,部分像素点被补充,像素点总数基本保持不变。背景中的分散像素点被忽略,突出了前景的目标特征区域,保证了显著图的简洁性和有效性。 (8) (9) (10)基于网格的特征融合解释算法通过指定区域尺度控制了生成显著图的细度,可以设置特征融合解释算法的网格尺度为输入图像尺度的任意因子,以达到自适应遥感图像尺幅的目的。以输入图像尺度为为例,网格尺度可以设置为,,,,,,…,当网格尺度为时,本文提出的遥感图像细粒度分类可解释方法可以在显著图中指示细度为输入图像尺度0.9%的特征信息,因此,该方法生成的显著图具有清晰的特征边缘,能够保证对目标细粒度分类任务的高精度解释。","result":"介绍了遥感图像细粒度分类的可解释方法Hybrid-Grid。首先,讨论了细粒度分类网络的发展,强调了特征挖掘与样本增强在提升分类精度中的重要性,并介绍了PMG-V2、EFM-Net和ResNet18等模型。接着,分析了现有可解释性分析方法的局限性,包括内在归因方法的梯度噪声问题和外在归因方法的噪声与尺度问题。此外,提出了目标细粒度分类任务的博弈竞争数学模型,定义了独立本质特征集和交互本质特征集,以指导可解释性分析方法的设计。进一步,探讨了本质特征的特征博弈作用,通过泰勒级数展开分析了独立效应和相互作用效应。最后,详细介绍了Hybrid-Grid算法流程,该方法融合了像素级和局部特征关系,通过特征博弈作用的重新分配,提高了解释精度,并通过网格法聚合本质特征,生成具有清晰特征边缘的显著图,以实现对目标细粒度分类任务的高精度解释。","language":"zh"},{"title":"Hybrid-Gird: 遥感图像细粒度分类可解释方法","chapter":"3 实验设计","content":"3.1 实验数据集FGSC-23数据集共23类细粒度船舶类的样本,包括塔川类两栖攻击船舶、两栖攻击船舶等船舶类别共22类,以及非船舶类别1类。Aircraft-16数据集共16类细粒度飞机样本,包括云遮挡、小目标和不平衡样本等困难情况。在FGSC-23、Aircraft-16训练集上分别训练了EFM-Net、PMG-V2、Resnet18,并在测试集上验证分类网络的解释情况,为展示测试集样本分布均衡度,FGSC-23、Aircraft-16训练集的类别和样本数如表2所示。表2数据测试集样本分布数量Table 2Number of sample distributions in the data testing set3.2 实验平台本文实验操作平台为 Ubuntu 18.04 操作系统,使用 CUDA11.3 和 cuDNN8 加速训练,处理器为Intel® Xeon® Silver 4214R CPU@2.40 GHz,GPU 为NVIDIA GeForce RTX 3090(24 G显存)。使用的编程语言为Python,开发框架为Pytorch。其中,实验代码为:PMG-V2,https://github.com/PRIS-CV/PMG-V2‍[2023-06-30];EFM-Net,https://github.com/JACYI/EFM-Net-Pytorch[2023-06-30]。3.3 评价指标为定量评价可解释性分析方法的性能,采用平均下降(Average Drop)、一致性(Coherency)、复杂度(Complexity)、ADCC(Average DCC)、删除和精度损失(Deletion and precision loss)作为可解释性分析方法的评价指标(Poppi等,2021)。(1)平均下降(Average Drop)。该评价指标衡量了当模型仅看到解释图而不是完整图像时,目标类别c的置信度平均下降的百分比。其计算公式为(11)(2)一致性(Coherency)。该评价指标用于衡量可解释性分析方法的显著图在解释预测时是否包含所有相关特征并以连贯的方式去除无用特征。因此,对于给定的输入图像和感兴趣的类别,的显著图在以显著图本身为条件时不应发生变化。其计算公式为 (12) (13)(3)复杂度(Complexity),该评价指标要求显著图尽可能简单,即它必须包含最少的像素来解释预测结果。当归因方法仅突出显示少量像素时,复杂度最小化。这个评价指标有助于评估可解释性分析方法的简洁性,即使用最少的像素来解释预测结果。其计算公式为 (14)(4)ADCC(Average DCC),该评价指标提出于论文《重新评估用于解释性的类激活映射:一种新的评估指标和实验分析》(Poppi等,2021),用于对可解释性分析方法进行解释性评估。ADCC综合考虑了平均减少、一致性和复杂度等多个方面,从而提供了对可解释性分析方法可解释性的全面和公正的评估。其计算公式为 (15)(5)删除和精度损失(Deletion and precision loss),该评价指标衡量在从图像中移除重要特征(由可解释性分析方法提供)后,分类器精度的下降程度。该指标的数值越大,表示删除的特征对分类器的预测精度影响越大,反映了模型对于关键特征的依赖程度。其计算公式为 (16)","result":"介绍了遥感图像细粒度分类可解释方法的实验设计。使用了FGSC-23和Aircraft-16两个数据集,分别包含23类和16类细粒度船舶和飞机样本,考虑了云遮挡、小目标和样本不平衡等困难情况。实验在Ubuntu 18.04操作系统上进行,使用CUDA11.3和cuDNN8加速,配备Intel Xeon Silver 4214R CPU和NVIDIA GeForce RTX 3090 GPU。编程语言为Python,开发框架为Pytorch。实验代码包括PMG-V2和EFM-Net,可通过GitHub访问。评价指标包括平均下降、一致性、复杂度、ADCC和删除与精度损失,以定量评估可解释性分析方法的性能。这些指标综合考虑了模型置信度下降、显著图的连贯性、简洁性以及关键特征对分类器精度的影响。","language":"zh"},{"title":"Hybrid-Gird: 遥感图像细粒度分类可解释方法","chapter":"4 结果与分析","content":"4.1 目标细粒度分类网络的可解释性分析效果评估为了对本文提出的遥感图像细粒度分类可解释方法进行效果评估,使用现有的主流归因分析法和本文所提方法Hybrid-Grid对EFM-Net的全局决策进行解释,包括Smooth-Grad、Deep-Lift和Integrated-Gradients,其解释效果如图2(b)—(d)所示。可见:Deep-Lift和Integrated-Gradients生成的显著图存在噪声和解释效果不佳的问题。其中:由于Integrated-Gradients通过引入与输入相似的多个样本来计算梯度,深度模型内部对这些尺度缩放图像的处理可能存在很大的差异,因此会引入虚假相关性(Yang等,2023),导致生成的显著图错误地强调或忽视一些特征,不能够抓住细粒度分类网络判断依据的本质特征;由于Deep-Lift方法涉及对参考激活的选择,参考激活的不准确或不合适会导致无法捕捉到神经元间复杂的相互作用和依赖关系,此外,梯度传播受限也会导致信息传递不完整等问题,因此解释效果欠佳。与上述两种方法相比相比,Smooth-Grad和Grad-CAM得出较为符合目视解译判断依据的显著图。其中:Smooth-Grad可以生成更清晰、细节较多的显著性图,但会错误地指示飞机的影子等并不属于目标细粒度分类本质特征的干扰信息;Grad-CAM可以关注到对全局决策更重要的块状区域,然而由于全局池化操作的使用,Grad-CAM会丢失一些细节区域的信息,同时,受限于目标细粒度分类网络最后一层卷积层的尺度问题,将热力图映射回原图时导致显著图难以生成较为清晰的特征边缘。综上,目前现有的可解释性分析方法都不能对目标细粒度分类网络的决策过程进行可信赖、稳定的解释,并给出符合人类感知的本质特征表示。(a) 输入图像 (b) 平滑梯度 (c) 深度归因 (d) 积分梯度 (e) 混合网格(a) Input image (b) Smooth-Grad (c) Deep-Lift (d) Integrated-Gradients (e) Hybrid-Grid图2不同解释方法对EFM-Net的解释效果对比(红色响应为网络在分类任务中抓取到的关键特征)Fig. 2Comparison of the explaination effect of different explanation methods on EFM-Net (the red area represents the key features captured by the classification network)本文提出的遥感图像细粒度分类可解释方法——Hybrid-Grid对于以EFM-Net为例的遥感图像目标细粒度分类网络具有更好的解释效果,详见图2(e)。红色响应为网络在分类任务中抓取到的关键特征。可见目标细粒度分类网络在决策过程中对目标的关注区域具有一致性。具体而言,对于船舶细粒度分类任务,以FGSC-23数据集为例,网络主要依赖于船舶的停机坪、舰岛、相控阵雷达等区域进行判断。类似地,在飞机目标细粒度分类任务中,以Aircraft-16数据集为例,网络主要依赖于飞机的机翼、发动机等区域进行判断。Hybrid-Grid可以确定目标细粒度分类网络在分类过程中关注的特定区域包含了目标的本质特征,从而深入理解网络的决策过程。从视觉连贯性和判别性的角度来看(Simonyan等,2014;Zeiler和Fergus,2014;Springenberg等,2014;Selvaraju等,2016;Sundararajan等,2017),Hybrid-Grid在解释区域的定位上表现更准确,其指示区域在目标细粒度分类网络感兴趣的细粒度特征上,同时不易受到影子等干扰因素的影响。从视觉感知角度来看,Hybrid-Grid给出的显著图具有较小的噪声,在解释具体目标的分类时保持了归因分析法所具有的像素级信息和细节性,相对于类激活图映射系列方法具有更清晰的特征边缘。另外,Hybrid-Grid的显著图具有较好的像素连贯性,能够实现以区域响应的形式定位目标物体,显示分类器决策依赖的本质特征的区域。综上所述,本文提出的遥感图像细粒度分类可解释方法同时具有先进的原理和较好的视觉解释效果,能给出对目标细粒度分类网络更准确和直观的解释结果。4.2 基于网格的特征融合解释算法参数Hybrid-Grid的先进性之一体现于它对像素级特征和高层特征的良好平衡,通过调节基于网格的特征融合解释算法的参数,一方面可以达到减少噪声、平滑波动、聚合特征的效果,另一方面可以控制生成显著图的细度,使其在保持对目标细粒度分类网络高精度解释效果的情况下适应不同尺度的遥感图像。以的输入图像尺度为例,可以设置特征融合解释算法的网格尺度为输入图像尺度的任意因子。图3为当网格尺度参数设置为不同值时,所提方法Hybrid-grid对参考分类网络在FGSC-23数据集上进行决策的可解释分析示例。可见:从左到右特征融合解释算法的网格尺度逐渐减小,并且随着该参数的变化,Hybrid-Grid生成的显著图细节性越来越好;对目标细粒度分类网络决策依赖的本质特征的边界描述得更加清晰,而特征像素间的聚合性越来越差,对目标决策重要区域响应的定位变得分散。图3不同网格尺寸参数设置下的Hybrid-Grid可解释性分析方法对EFM-Net的解释效果Fig. 3The explanatory effect of different size grids on EFM-Net为了进一步论证上述结论,在表3中,通过本文提出的Hybrid-Grid所指示的本质特征区域,根据之前所提的可解释性分析方法量化评价指标,以EFM-Net在FGSC-23数据集上的分类任务为例,计算遮挡Hybrid-Grid指示区域造成的删除和精度损失,考察Hybrid-Grid可解释性分析方法能否抓住目标细粒度分类决策依据的本质特征,探究特征融合解释算法的网格参数对其产生的影响。可见:遮挡Hybrid-Grid指示的本质特征所在区域可以使目标细粒度分类网络的Top-1准确率、Top-5准确率和F1指标产生大幅下降;同时,随着掩膜尺寸参数的减小,删除和精度损失指标呈现出一种特殊的变化模式。表 3掩膜尺寸对目标细粒度分类网络精度造成的影响Table 3Influence of different mask sizes on the accuracy of target fine-grained classful network具体来说,在调整掩膜尺寸从3到的过程中,删除和精度损失指标,即Hybrid-Grid对目标细粒度分类网络的解释性能,在掩膜尺寸减小的初期阶段有所下降。这是因为较大的网格尺寸使Hybrid-Grid的特征融合解释算法的定位区域较广,过大的掩膜遮挡面积使得目标细粒度分类网络的准确率大幅下降。但与图3所展示的可视化效果结合来看,较大的网格尺寸可能会导致特征融合解释算法不能良好地融合像素级特征信息和高层特征信息,使Hybrid-Grid无法准确地定位细粒度的本质特征信息,导致可解释性分析方法的性能下降。因此,应进一步减小特征融合解释算法的网格参数。随着掩膜尺寸进一步减小,发现删除和精度损失指标持续上升,这是因为较小的网格尺寸能够使特征融合解释算法更好地捕捉到目标细粒度分类网络决策关注的细微特征,从而提高Hybrid-Grid的解释性能。当掩膜尺寸达到时,Hybrid-Grid的删除和精度损失指标达到了最大值,这意味着在输入图像为的情况下,当特征融合解释算法的网格尺寸为时,Hybrid-Grid能够以最佳的方式解释目标细粒度分类网络的分类决策依据,并提供最准确、详细的本质特征定位。4.3 量化指标评价可解释性分析方法使用平均下降、连贯性、复杂度和ADCC指标对Hybrid-Grid及其他现有可解释性分析方法在EFM-Net、PMG-V2、Resnet18上进行量化指标评估,以定量衡量不同可解释性分析方法在目标细粒度分类网络上的性能。对于普通分类网络来说,包括ResNet18、VGG16在内,Samuele Poppi等(2021)发现CAM系列的Score-CAM在ADCC指标上取得了最好的性能指标,这表明Score-CAM方法能够有效地解释传统分类网络的决策过程,因此在本节中,使用Score-CAM作为分类网络的基准可解释性分析方法。使用Hybrid-Grid对经典分类网络应用于细粒度分类网络任务进行解释,表4为Score-CAM在解释ResNet-18应用于FGSC-23测试集的评价指标情况。可见与在传统分类任务中相比,这4个指标都产生了显著的下降。其中,ADCC指标与Samuele Poppi提出的最优数值77.30%相比下降了16.27%。这是因为ResNet-18在目标细粒度分类任务上的适应性不足,无法有效地捕捉到重要的目标区域进行分类。注: 加粗数值表示不同方法的最优数值, “↓”表示越低越好,“↑”表示越高越好。表4不同可解释性分析方法量化指标评估Hybrid-GirdTable 4Evaluating Hybrid-Gird by different quantitative indicators for explainability%为了评估Hybrid-Grid在解释目标细粒度分类网络方面的优势,本文选择EFM-Net作为目标模型,并使用上述量化指标来比较本文提出的可解释性分析方法Hybrid-Grid和基准方法Score-CAM对EFM-Net应用于FGSC-23测试集的解释效果(表4)。可见Hybrid-Grid在所有指标上都取得了最好的结果,该指标证明其能够对提供一致且准确的解释;去除冗余特征、突出本质特征;其解释具有更高的可靠性和稳定性。与之相比,Score-CAM虽然在解释传统分类任务时表现良好,但在解释目标细粒度分类网络时存在一定的局限性,这也证明了现有可解释性分析方法对目标细粒度分类网络关注的本质特征的解释能力有限。为了验证Hybrid-Grid解释方法在其他目标细粒度分类网络上的通用性和有效性,选择了2021年提出的PMG-V2网络作为测试网络,使用FGSC-23作为测试集,将Hybrid-Grid对PMG-V2网络的分类过程进行可解释性分析,并与基准方法Score-CAM进行比较,结果如表4所示。可见:Hybrid-Grid对PMG-V2的解释效果在所有指标(包括平均下降、一致性、复杂度、ADCC)上均优于Score-CAM,并展现出优秀的数值。这表明对于目标细粒度分类网络PMG-V2来说,Hybrid-Grid具有更加准确和稳定的解释能力。该实验证明了Hybrid-Grid不仅适用于之前提出的EFM-Net网络,还可以应用于其他目标细粒度分类网络,且在这些网络上也具备良好的解释性能。综上所述,量化指标结果证明了EFM-Net在目标细粒度分类任务上的先进性,以及Hybrid-Grid在解释目标细粒度分类模型的通用性和优越性。4.4 删除及精度损失实验本文使用删除及精度损失指标对Hybrid-Grid及其他现有可解释性分析方法进行评估,通过在原测试集以及根据不同可解释性分析方法使用掩膜遮挡了测试图像特定区域的测试集进行测试,考察目标细粒度分类网络的精度损失情况。考察的精度指标包括Top-1准确率、Top-5准确率和F1。Top-1准确率是指模型在对单个样本进行分类时,预测的最高置信度类别与实际类别相符的比例;Top-5准确率是指模型在对单个样本进行分类时,在前5个最高置信度的预测类别中,至少有一个与实际类别相符的比例;F1综合考虑了模型的精确率(预测为正例的样本中,真正为正例的比例)和召回率(实际为正例的样本中,被正确预测为正例的比例)的指标,可以评估模型的分类性能。预测结果详见表 5。 可见以在FGSC-23数据集上训练后的EFM-Net为例,遮挡Hybrid-Gird指示的重要区域后,目标细粒度分类网络的Top-1准确率下降了16.92%,Top-5准确率下降了1.61%,F1下降了17.21%;通过与根据其他可解释性分析方法的遮挡结果进行比较,Hybrid-Grid指示的重要区域对Top-1、Top-5准确率和F1指标产生的影响高于其他两个可解释性分析方法。以Aircraft-16数据集为例,所选网络在Aircraft-16测试集上的Top-1准确率下降了12.18%,Top-5准确率下降了2.1%,F1下降了11.95%。通过与其他可解释性分析方法结果进行比较,Hybrid-Grid可解释性分析方法指示的重要区域对Top-1、F1指标产生的影响高于其他两个可解释性分析方法,对Top-5准确率的影响略低于Grad-CAM。表5不同遮挡情况对EFM-Net性能指标的影响Table 5The impact of occlusion experiments on accuracy%因此,Hybrid-Grid抓取的特征确实是对目标细粒度分类网络决策过程最关键的本质特征,证实了Hybrid-Grid对目标细粒度分类网络的解释性能优于现有可解释性分析方法。4.5 可解释性分析方法的适应性和可行性在本研究中,对Hybrid-Gird在不同数据集、不同分类网络上的适应性和可行性进行了实验。本文选择了一个常用的分类网络即传统的ResNet18,以及两个具有代表性的目标细粒度分类网络即PMG-V2和EFM-Net,并将其应用于2个具有代表性的FGSC-23和Aircarf-16数据集,获得在这些数据集上的分类结果。后使用本文提出的可解释性分析方法Hybrid-Gird对这些分类网络的决策过程进行解释,通过该可解释性分析方法,能够可视化输入图像中对网络模型决策具有关键作用的本质特征,这些解释结果如图3所示。可见,从左到右特征融合解释算法的网格尺度逐渐减小,并且随着该参数的变化,Hybrid-Grid生成的显著图细节性越来越好;对目标细粒度分类网络决策依赖的本质特征的边界描述得更加清晰,而特征像素间的聚合性越来越差,对目标决策重要区域响应的定位变得分散。同时,本文还使用了多种评价指标来量化评价Hybrid-Gird的性能。这些评价指标包括平均下降(Average Drop)、一致性(Coherency)、复杂度(Complexity)、ADCC(Average DCC)、删除和精度损失(Deletion and precision loss)等,用于评估Hybrid-Gird在不同数据集和不同目标细粒度分类网络上的表现,以判断可解释性分析方法的适应性和可行性。上述实验结果证明,在不同的数据集和分类网络中,Hybrid-Gird可以准确捕捉到输入图像中与目标分类密切相关的关键特征,并通过可视化结果展示出来。这表明Hybrid-Gird能够应用于不同分类网络、不同数据集进行解释。","result":"提出的遥感图像细粒度分类可解释方法Hybrid-Grid在效果评估中显示出比现有主流归因分析法更优的解释效果。Hybrid-Grid能够生成清晰、细节丰富的显著图,有效捕捉目标细粒度分类网络在决策过程中关注的关键特征,如船舶的停机坪、舰岛、相控阵雷达以及飞机的机翼、发动机等区域。与Smooth-Grad和Grad-CAM等方法相比,Hybrid-Grid在视觉连贯性和判别性上表现更准确,且不易受干扰因素影响。\n\nHybrid-Grid的先进性还体现在对像素级特征和高层特征的良好平衡,通过调节算法参数,可以减少噪声、平滑波动、聚合特征,同时控制生成显著图的细度,适应不同尺度的遥感图像。实验结果表明,随着网格尺度参数的减小,Hybrid-Grid生成的显著图细节性越来越好,边界描述更清晰,但特征像素间的聚合性变差。\n\n量化指标评价显示,Hybrid-Grid在平均下降、连贯性、复杂度和ADCC等指标上均优于现有可解释性分析方法,如Score-CAM。在EFM-Net、PMG-V2、Resnet18等网络的量化评估中,Hybrid-Grid均取得了最佳结果,证明了其在目标细粒度分类网络上的通用性和优越性。\n\n删除及精度损失实验进一步证实了Hybrid-Grid抓取的特征对目标细粒度分类网络决策过程的重要性。遮挡Hybrid-Grid指示的重要区域后,网络的Top-1准确率、Top-5准确率和F1指标均出现显著下降,且Hybrid-Grid指示区域对这些指标的影响高于其他可解释性分析方法。\n\n最后,Hybrid-Gird在不同数据集、不同分类网络上的适应性和可行性得到了验证。实验结果表明,Hybrid-Gird能够准确捕捉输入图像中与目标分类密切相关的关键特征,并通过可视化结果展示出来,证明了其在不同分类网络、不同数据集进行解释的能力。","language":"zh"},{"title":"Hybrid-Gird: 遥感图像细粒度分类可解释方法","chapter":"5 结论","content":"本文通过研究目标细粒度分类任务问题的数学模型,并提出一种基于本质特征博弈数学框架及语义可解释的归因方法Hybrid-grid,探究了目标本质特征对网络决策过程的影响情况。主要结论如下:(1)高分辨率遥感图像内容复杂、特征丰富,现有常用的可解释性分析方法仅考虑目标部件特征之间的竞争关系,不能实现高精度、可视化的可解释性分析;(2)为表明现有目标细粒度分类网络与数据集之间存在的决策偏见和路径依赖,需要对遥感图像目标细粒度分类决策过程建立数学框架,精细刻画目标本质特征,准确描述目标可信识别任务中决策特征归因过程;(3)通过融合像素级特征关系与图像局部特征关系,可以进一步提升目标本质特征的可视化效果和解释准确度,辅助提升细粒度分类网络的分类性能与决策可信性;(4)通过设置和调整特征融合的网格参数,可以实现可解释性分析方法对遥感图像尺度的自适应。未来的工作将进一步提升目标本质特征的可视化效果和解释准确度,辅助提升细粒度分类网络的分类性能与决策可信性。","result":"总结了Hybrid-Grid方法在遥感图像细粒度分类任务中的应用,指出了现有方法的局限性,提出了基于数学框架的可解释性分析方法,并通过融合不同级别特征提升了可视化效果和解释准确度,同时实现了对不同尺度图像的自适应性。未来工作将进一步提高方法的可视化和解释能力,以增强分类性能和决策可信性。","language":"zh"}]
      朱凯雯,尤亚楠,曹婧宜,孟钢,乔媛媛,杨洁
      2024, 28(7): 1722-1734. DOI: 10.11834/jrs.20243252
      Hybrid-Gird: 遥感图像细粒度分类可解释方法
      摘要:基于遥感图像的目标细粒度分类深度神经网络已技术日益成熟,网络决策的可解释性研究是当前细粒度分类深度学习算法进一步提高决策可信度的关键问题。为精确表征对模型决策起决定性作用的本质特征,本文基于博弈竞争理论对遥感图像目标细粒度分类任务进行建模,分析了IG、SmoothGrad、Grad-CAM等可解释性方法在遥感图像目标细粒度分类网络上的适用性,提出了一种尺度自适应的目标细粒度分类本质特征可解释性分析方法Hybrid-Grid,使用像素级与局部特征关系融合算法提高对支撑网络决策的目标本质特征的精确描述能力。结果表明:本文提出的Hybrid-Grid对目标细粒度分类网络的解释效果在ADCC量化评估指标上达到78.87,相较Score-CAM有大幅提升;与SmoothGrad、Grad-CAM的解释结果相对比,本文方法在删除及精度损失实验上表现最好,使EFM-Net的Top-1准确率、Top-5准确率、F1得分分别损失了16.92%、1.61%、17.21%,证明Hybrid-Grid准确解释了对细粒度分类网络决策贡献最大的目标本质特征。本文提出的可解释性分析方法能够更精准地揭示当前目标细粒度分类网络的决策特征依据。  
      关键词:遥感图像;可解释性分析方法;目标细粒度分类网络;可解释人工智能;合作博弈理论;本质特征   
      83
      |
      313
      |
      0
      <HTML>
      <网络PDF><Enhanced-PDF><Meta-XML>
      <引用本文> <批量引用> 64962021 false
      发布时间:2024-07-31
    • [{"title":"基于元学习和密集残差注意力的遥感图像任意尺度超分辨率重建","chapter":"1 引言","content":"超分辨率重建技术在卫星遥感图像信息智能处理领域中有重要的应用,经过超分辨率技术重建得到的高空间分辨率遥感图像在目标检测与跟踪、地理资源识别等高层智能任务中有更高的应用价值。传统遥感图像超分辨率重建技术包括双线性插值、双三次插值、边缘保持、基于偏微分方程的全变分(Dosovitskiy和Brox,2016)方法和各向异性扩散(Bavirisetti和Dhuli,2016)方法等。这些方法虽然计算简单,但对具有复杂纹理的遥感图像而言存在无法恢复高频细节信息的问题。随着深度学习技术的发展,基于神经网络的超分辨率重建技术被引入遥感图像处理领域,其中基于卷积神经网络(CNN)的方法是目前最常用的方法之一,另外还有基于近年来被广泛应用于图像生成和处理的生成对抗网络(GAN)的超分辨率重建技术,在遥感图像超分辨率重建方面也具有良好的效果,能够实现更高感知质量的遥感图像超分辨率重建。目前,用于遥感图像超分辨率重建的前沿深度学习算法包括采用纯数据驱动的流模型(任术波 等,2022)、应用混合稀疏表示模型的MSR-SRR(杨雪 等,2022)、针对高分四号卫星中波红外影像的卷积网络(贺智和贺丹,2020)以及针对Sentinel-2卫星遥感图像的无监督方法KN-SRGAN(赵慧岩和李云鹤,2022)等。数据流算法采用纯数据驱动的流模型和优化后的密集残差网络对低分辨率图像进行特征提取,提升了超分辨率图像的感知质量。KN-SRGAN作为基于生成对抗网络的方法,重建出的遥感图像具有更适合人眼直观视觉感受和具备更佳感知效果等特点。以上深度学习模型只能处理一种比例因子的超分辨率重建任务,在多尺度层面上缺少泛化性,属于基础学习器的范畴。对于真实遥感图像的超分辨率重建任务,往往要对图像按不同的整数或非整数倍连续放大,若是对每种可能的比例因子都训练一个模型并部署在平台中,会造成极大的算力和空间资源的浪费。因此有必要研究能用单一模型处理任意尺度遥感图像超分辨率重建任务的方法,这种超分辨率重建模型实际上要求学习算法有在任务层面进行学习的能力,而元学习就是一种针对不同任务自适应改变模型内部机制的策略。将元学习和基础学习做对比,基础学习由先验偏置确定假设空间,学习算法在确定好的假设空间内学习单一任务的最优解。元学习旨在学习导致一种算法适应一种任务的原因,以及如何将模型泛化到更多类型的任务中。针对上述问题,本文提出遥感图像任意尺度超分辨率重建方法,该方法采用元学习(Vilalta和Drissi,2002;Pratt和Thrun,1997;Thrun和Pratt,1998)的思想,根据不同比例因子自适应地调整模型内部参数,完成任意尺度超分辨率重建任务,同时采用带有注意力机制的密集残差网络作为特征提取器,使重建结果具备更清晰、区分度更高的细节。在公开遥感数据和真实卫星遥感图像上的定量和定性实验结果表明,本文所提方法具有良好的任意尺度超分辨率重建能力。","result":"介绍了遥感图像超分辨率重建技术的重要性及其在智能处理领域的应用价值。传统方法如双线性插值和各向异性扩散等存在无法恢复高频细节的问题。深度学习技术的发展带来了基于CNN和GAN的超分辨率重建方法,提高了遥感图像的感知质量。前沿算法包括纯数据驱动的流模型、混合稀疏表示模型、针对特定卫星影像的卷积网络和无监督方法等。然而,现有深度学习模型在多尺度超分辨率重建任务上缺乏泛化性。本文提出了一种基于元学习和密集残差注意力的遥感图像任意尺度超分辨率重建方法,通过自适应调整模型参数和采用注意力机制的特征提取器,实现了更清晰、区分度更高的重建结果。实验结果表明该方法具有良好的任意尺度超分辨率重建能力。","language":"zh"},{"title":"基于元学习和密集残差注意力的遥感图像任意尺度超分辨率重建","chapter":"2 研究方法","content":"本文从基于元学习的超分辨率重建方法Meta-SR(Hu等,2019)出发,采用密集残差网络RDN(Residual Dense Network)(Zhang等,2018b)和元上采样模块(Meta Upscale Module)的组合,实现遥感图像任意尺度超分辨率模型Meta-RDN作为基准模型,同时考虑到遥感图像包含丰富的局部地物目标信息,为了使重建结果具备更清晰、区分度更高的细节,将通道注意力CA(Channel Attention)(Zhang等,2018a)机制引入Meta-RDN,建立使用密集残差注意力网络RDCAN(Residual Dense Channel Attention Network)提取特征的改进模型Meta-RDCAN。2.1 Meta-RDCAN网络结构对一个给定的从高分辨率图像中下采样得到的低分辨率图像,超分辨率重建算法的任务是从中重建出超分辨率图像。其中的恢复需要根据特征提取网络从中提取的特征图以及对应比例因子的上采样滤波器计算得到,因此一个超分辨率重建模型的基本结构是特征提取模块加上采样模块的组合。带有元上采样模块的超分辨率重建算法Meta-SR在提取低分辨率图像特征后,将比例因子也作为输入用以计算上采样滤波器权重,最终通过卷积滤波器和特征图运算得到超分辨率图像。该算法中的元上采样模块能自适应地根据输入比例因子来调整模型内部参数,从而实现任意尺度超分辨率重建的功能。本文以密集残差网络作为特征提取器,结合元上采样模块构建遥感图像任意尺度超分辨率重建模型Meta-RDN。考虑到遥感图像中包含丰富的地物信息和复杂的纹理细节,为了在超分辨率重建过程中充分强调遥感图像的局部特征,本文向密集残差网络中引入了通道注意力机制,实现密集残差注意力特征提取网络,从低分辨率输入中提取得到的特征图经过元上采样后输出最终的超分辨率重建结果。进一步改进后的Meta-RDCAN网络结构如图1所示。Meta-RDCAN以从中经双三次下采样得到的和比例因子作为输入,经过RDCAN提取特征后得到。随后输入元上采样网络,按照由当前比例因子计算得到的上采样滤波器权重将特征值映射为,完成一次前向传播过程。然后和进行比较并求取损失,通过反向传播更新特征提取网络和元上采样网络的参数。图1Meta-RDCAN 模型结构Fig. 1Structure of Meta-RDCAN2.2 元上采样网络结构Meta-SR方法的核心是使用元上采样模块代替单一尺度超分辨率重建模型中的上采样层,从而实现任意尺度超分辨率重建功能。图1中使用的元上采样模块输入为比例因子或一组比例因子构成的向量,以及来自特征提取网络的,输出为在当前比例因子下的。元上采样模块的功能可用式(1)描述 (1)式中,表示中位置为的像素值,表示中位置为的像素特征值,表示在当前比例因子下的上采样滤波器对像素的权重,函数表示计算像素值的特征映射函数。该式说明上采样模块具备3个功能,即根据不同比例因子预测不同上采样滤波器的权重预测功能,将中的像素与的像素相对应的位置投影功能,以及根据和计算像素值的特征映射功能。其中,权重预测功能需要接受来自比例因子的输入。和典型的超分辨率重建网络中的上采样模块不同,图1所示的元上采样模块采用前馈网络来自适应地预测上采样滤波器的权重,该过程的表达式为 (2)式中,表示上采样滤波器对中像素的权重,表示以为输入,以为参数的前馈网络。前馈网络包含两层全连接层和一层ReLU激活函数。是根据比例因子和位置计算得到的相对中像素的偏移向量,计算公式为 (3)式中,项是为了区分成倍数关系的比例因子之间的上采样滤波器权重。例如在对低分辨率图像分别进行3倍和6倍超分辨率重建时,对于没有参与计算的上采样滤波器,在3倍超分辨率重建图像中的像素和6倍超分辨率重建图像像素就会具有相同权重,从而限制超分辨率重建模型的泛化能力。对中的每个像素而言,其像素值是根据在上的特征值决定的,但在不同的尤其是非整数的比例因子下,不同位置上的像素可能对不同数量的像素产生影响。例如在的超分辨率重建任务中,有的像素决定的两个像素值,而有的像素只能决定一个。因此元上采样模块通过向下取整函数来实现位置投影功能 (4)特征映射是根据上采样滤波器的权重和计算得到超分辨率重建图像的像素值。图1中的元上采样模块的特征映射功能可用下式描述: (5)2.3 密集残差注意力网络结构为了在超分辨率重建过程中强调遥感图像的局部特征,提高超分辨率图像中局部细节的重建效果,在密集残差网络的基础上引入了通道注意力机制。本文采用图2所示轻量化通道注意力机制,通道注意力层接受上一级特征图输入后,首先进行自适应平均池化提取特征图的全局信息,然后通过两层非线性层采样后得到通道权值向量。权值向量和上级特征图相乘可实现对特征图通道的加权,从而完成一次施加通道注意力的过程。该通道注意力层不能随意添加到原网络中,因为一方面加入注意力机制会增加模型参数量,另一方面注意力可能会错误地放大特征图中的噪声,反而造成性能下降。考虑到在密集残差块的前端施加注意力机制相当于舍弃该残差块提取的特征信息,无法充分发挥密集残差和注意力结合的优势,因此本文将通道注意力层插入到图3所示的密集残差块末端,将这种改进后的结构称为密集残差注意力块。同时基于残差连接的思想,在每层注意力的输入端引出一条额外的残差连接和当前注意力层的输出融合,保证对通道的加权不会引发层次信息的丢失。本文在密集残差注意力网络中应用了16组密集残差注意力块,每个密集残差注意力块中有8层卷积层,最终提取得到64通道的特征图。图2通道注意力结构Fig. 2Structure of channel attention图3添加通道注意力后的密集残差块结构Fig. 3Structure of residual dense block with channel attention","result":"介绍了一种基于元学习和密集残差注意力的遥感图像任意尺度超分辨率重建方法。首先,以Meta-SR为基础,结合密集残差网络RDN和元上采样模块,构建了基准模型Meta-RDN。为了提高细节清晰度和区分度,引入通道注意力CA机制,形成了改进模型Meta-RDCAN。Meta-RDCAN网络结构包括特征提取模块和采样模块,通过元上采样模块自适应调整内部参数,实现任意尺度超分辨率重建。元上采样模块的核心功能是预测上采样滤波器权重、位置投影和特征映射。此外,本文在密集残差网络中引入轻量化通道注意力机制,通过自适应平均池化和非线性层提取通道权值,实现对特征图通道的加权。为避免信息丢失,将通道注意力层插入到密集残差块末端,并引入额外的残差连接。最终,Meta-RDCAN网络应用了16组改进后的密集残差注意力块,每个块包含8层卷积,提取64通道特征图。","language":"zh"},{"title":"基于元学习和密集残差注意力的遥感图像任意尺度超分辨率重建","chapter":"3 数据结果处理与分析","content":"本文对基准模型Meta-RDN和改进模型Meta-RDCAN的实验结果进行了定性和定量的分析对比。实验过程中,先在DIV2K数据集(Agustsson和Timofte,2017)上预训练Meta-RDN和Meta-RDCAN,然后分别在遥感数据集AID(Xia等,2017),UCMerced(Yang和Newsam,2010)和WIDS(Liu等,2019)上微调。为了研究对遥感图像按不同比例因子进行超分辨率重建时空间分辨率变化带来的影响,在较广的比例因子范围内训练了多组模型,并在澳门科普卫星的真实遥感数据上进行了充分测试。此外,Set5和作为测试集分割出来的部分UCMerced数据也被用于模型测试。评价指标方面,采用有参考指标峰值信噪比PSNR(Peak Signal-to-Noise Ratio)和结构相似度SSIM(Structural Similarity Index Measure)来衡量超分辨率重建图像和真值图像的差异,无参考指标NIQE(Mittal等,2013)来衡量超分辨率重建图像的感知质量,以及算法运行时间来衡量图像处理速率。3.1 数据集预处理本文使用的数据集包括DIV2K(Agustsson和 Timofte,2017)、AID(Xia等,2017)、UCMerced(Yang和Newsam,2010)、WIDS(Liu等,2019)、Set5(Kulkarni等,2016)和来自澳门科普卫星的真实遥感图像数据。DIV2K数据集是一个广泛用于图像超分辨率研究的数据集,包含800张来自各种场景的不同尺寸的高分辨率图像。AID数据集是一种广泛用于遥感图像分类任务的公共数据集,包含来自Google Earth等卫星影像在内的10种不同场景共10000张的遥感图像,空间分辨率在0.5—8 m。AID数据集的图像场景包括:机场、海滨、农田、森林、工业区、公园、停车场、铁路、市区和河流,每个场景下的图像数量相等,且每张图像的分辨率为600×600像素。该数据集的特点是图像场景种类多样,充分考虑了遥感图像的特点,可以用于各种图像分类、目标检测和识别任务的训练和测试。UCMerced数据集是一个用于地物分类的公共遥感图像数据集,包含21类总计2100张大小为256×256像素的地物图像,空间分辨率为0.3 m。这些图像拍摄于不同的季节和时间,是广泛用于遥感图像分类算法评估和测试的数据集之一。WIDS数据集源于机器学习比赛WiDSDatathon2019,该数据集中图像的空间分辨率为3 m,共有11000张大小为256×256像素的卫星影像。Set5数据集是常用于测试图像超分辨率重建算法性能的基准数据集,包含5张不同类别的低分辨率彩色图片,因其简单和易于使用而广泛应用于图像超分辨率重建算法的快速测试和评估中。澳门科普卫星数据源于2022年搭载在天舟五号上发射的“澳门学生科普卫星一号”的遥感影像。该影像是一张大小为2048×2048像素的三通道彩色图像,空间分辨率为8 m。实验中对原图进行了大小为512×512像素的随机裁剪,并从中挑选出7张具有丰富地物目标信息和纹理细节的图像构成澳门科普卫星数据集用于模型测试。在进行有监督训练和有参考质量评估时,需要对训练数据和测试数据按一定比例因子进行下采样以获得低分—高分图像对。本文采用双三次下采样对训练和测试数据进行预处理,处理结果如表1中所示,其中训练数据以0.1为步长,测试数据以0.5为步长进行下采样,UCMerced数据集按8∶2的比例划分为训练集和测试集。表1数据预处理Table 1Pre-processing of datasets对遥感图像而言,经过下采样处理后得到的低分图像相比原图更加模糊,相当于降低了空间分辨率。在遥感图像超分辨率重建任务中,输入图像的空间分辨率将对超分辨率重建结果产生影响,比如高空间分辨率的遥感图像具有更清晰密集的细节,在超分辨率重建过程中有足够的特征信息用于重建,但低空间分辨率的遥感图像缺少纹理、边缘和轮廓等信息,使超分辨率重建效果下降。本文进行的下采样操作会引起实际输入的遥感图像和原图像空间分辨率的不一致。为了研究空间分辨率变化带来的影响,实验中在表1中的多组遥感数据集上训练了Meta-RDN和Meta-RDCAN,并且对部分遥感数据集的下采样范围进行扩大,目的是使下采样后的训练数据空间分辨率范围一定程度上能覆盖到测试数据下采样后的空间分辨率范围。这种覆盖关系如图4中所示,其中不同的遥感数据集用颜色加以区分,在数轴上的范围代表了数据集经下采样后相当的空间分辨率范围。原图像空间分辨率到下采样后相当空间分辨率之间的关系由式(6)给出: (6)式中,和分别表示原始遥感数据和下采样后数据的空间分辨率,表示下采样因子。图4下采样后训练数据和测试数据间空间分辨率的覆盖关系Fig. 4The coverage relationship of spatial resolution between training data and test data after downsampling从图4中可看出,模型在遥感数据集AID上训练时,可以获得测试时处理的低空间分辨率图像的经验。在UCMerced上训练的模型能获得更充足的重建图像细节的经验,但该训练数据与澳门科普卫星数据的空间分辨率区间没有交集,因此在测试时,相当于要求模型在新的空间分辨率范围内泛化。3.2 实验设置实验过程中采用两块RTX 2080Ti进行训练,批量(Batch)大小为2,训练轮次(Epochs)为200。损失函数方面没有采用超分辨率重建模型常用的L2损失,而是遵循Meta-SR的设置使用L1损失函数。L1损失函数直接衡量模型超分辨率重建结果与原始高分辨率图像之间的差异,计算方法是将超分辨率重建图像与高分辨率图像之间的差取绝对值,然后对所有差值求和并除以样本数量,求得平均绝对误差后反向传播并更新网络参数。优化策略方面采用自适应矩估计ADAM(Adaptive Moment Estimation)优化算法,该算法使用梯度的一阶矩估计和二阶矩估计动态地调整每个参数的学习率。自适应矩估计使用指数移动平均法来估计梯度的一阶矩和二阶矩,并通过偏差校正来纠正估计的偏差。相对于传统的随机梯度下降和其他优化算法,自适应矩估计算法在训练深度神经网络时往往可以取得更好的结果,并且具有一定的鲁棒性。实验中设置参数学习率(Learning Rate)为10-4,学习率衰减(Learning Rate Decay)为200。本文在DIV2K和WIDS上按照不同方案训练了Meta-RDCAN并绘制了L1损失的变化曲线,结果如图5所示。根据损失曲线,模型训练过程中损失接近5.0后下降变得十分缓慢,但继续训练确实能提升模型性能。图5(a)和图5(b)中在单一数据集上训练模型时,损失在中止训练时高于5.0,而图5(c)中在WIDS上微调的预训练模型最终损失能降到5.0以下。因此为了节省训练成本,同时保证算法性能不会因为提前终止而产生明显下降,本实验采用先在通用数据集DIV2K上预训练,再在各组遥感数据集上微调的训练方案。图5Meta-RDCAN在不同训练方案下的损失曲线Fig. 5The loss curve of Meta-RDCAN under different training regimens3.3 实验结果实验过程中在遥感数据集AID,UCMerced和WIDS上分别训练了Meta-RDN和Meta-RDCAN,然后在Set5,UCMerced和澳门科普卫星数据上进行测试。测试的比例因子设置在1.5—4.0,步长为0.5。因此一共有6组模型在3组数据上进行共计18次测试,每次测试分别包含6个比例因子的结果。在澳门遥感卫星数据上计算有参考指标峰值信噪比(dB)、结构相似度和算法运行时间(s)的结果如表2中所列。表3和表4中列出了部分在UCMerced和Set5上计算得到的以上指标,各表中横向对比时更高的峰值信噪比已用粗体标出表3和表4中列出了部分在UCMerced和Set5上计算得到的以上指标,各表中横向对比时更高的峰值信噪比已用粗体标出,算法运行时间取在不同比例因子下重建所耗时间的平均值,且在不同数据集上训练的模型用模型名称加训练数据集区分。注:黑体表示横向对比时更高的峰值信噪比。表2在澳门科普卫星数据上的测试结果Table 2Test results on Macao science popularization satellite data注:黑体表示横向对比时更高的峰值信噪比。表3在UCMerced上的部分测试结果Table 3Partial test results on UCMerced dataset注:黑体表示横向对比时更高的峰值信噪比。表4在Set5上的部分测试结果Table 4Partial test results on Set5 dataset纵向比较表2中的峰值信噪比,可以看出当比例因子增大至3.0左右时,无论是Meta-RDN还是Meta-RDCAN,计算出的峰值信噪比基本下降到40.0以下。一般认为重建图像的峰值信噪比大于35.0时,图像质量可被接受,而峰值信噪比大于40.0时重建图像具有较高的质量。通过观察图6中按不同比例因子进行重建的澳门科普卫星数据可发现,当比例因子在2.5以下时,图像中的飞机、油罐等目标能有较清晰的轮廓,而且部分并排的目标也有明显的能用肉眼区分的边缘。而当比例因子超过4.0时,一些细小的飞机目标在重建结果中已经消失,排列较为紧密的目标也在超分辨率重建过程中被混淆,无法清楚地判断出多个目标实例,这种重建图像是无法用于下游目标检测与识等任务的。综合定性和定量的分析,可以给出所提模型Meta-RDCAN的适用范围,即适用于比例因子在4.0以内的遥感图像任意尺度超分辨率重建任务。图6Meta-RDCAN在2.0、2.5及4.5比例因子下对澳门科普卫星数据的重建结果Fig. 6Meta-RDCAN reconstruction results on Macao data under 2.0, 2.5 and 4.5 scale factors另外,纵向对比表2和表3中在不同数据集上训练模型的测试结果可看出,在AID和UCMerced上训练的模型效果几乎总是优于在WIDS上训练的模型。这一结果可借助图4中的训练数据和测试数据的对应关系解释。当在澳门科普卫星数据上测试时,AID包含全部测试数据可能涵盖的空间分辨率,而UCMerced和WIDS数据集都不能完全覆盖测试数据,但UCMerced数据集的空间分辨率更高,训练过程中能提供更多的特征信息和更丰富的重建细节的经验。在UCMerced上测试时,UCMerced训练数据已完全覆盖测试可能出现的空间分辨率,AID数据集也包含足够充足的样本让模型学习到重建高空间分辨率遥感图像的经验,反之WIDS数据集与测试数据完全没有空间分辨率的交集,因此训练得到的模型性能不如其他两者。该实验结果说明了空间分辨率在遥感图像超分辨率重建任务中产生的重要影响,也说明了用于训练的数据尽可能选择覆盖空间分辨率范围广,包含丰富细节的遥感图像。最后,横向对比表2、表3和表4中的各项指标,可以说明在密集残差块中添加通道注意力确实能提升网络性能。在图7和图8的定性比较结果中,可看出Meta-RDCAN能重建出草坪中心目标下半部分的完整边缘和蝴蝶翅膀的纹理细节,而Meta-RDN的重建结果则可能缺少边缘或者存在细节模糊的问题。另外,通过对比算法运行时间能说明取得提升的代价是计算速率的降低。值得注意的是在有些横向对比结果中,即使峰值信噪比取得较高的值,结构相似度也可能取得较低的值,以及部分纵向对比中,峰值信噪比降低的同时结构相似度反而升高。这一现象说明峰值信噪比和结构相似度这两种有参考评价指标之间不一定是正相关关系,在分析模型性能优劣时还需根据具体任务具体分析更能准确反映算法的优缺点的指标。图7Meta-RDCAN和Meta-RDN在3.5比例因子下对UCMerced数据的重建结果Fig. 7Meta-RDCAN and Meta-RDN reconstruction results on UCMerced data under 3.5 scale factor图8Meta-RDCAN和Meta-RDN在3种比例因子下对Set5数据的重建结果Fig. 8Meta-RDCAN and Meta-RDN reconstruction results on Set5 data under three different scale factors对于遥感图像任意尺度超分辨率重建任务,仅使用有参考评价指标会带来如必需高分辨率图像作为真值等诸多限制,不符合遥感图像缺少高分辨率图像的实际应用场景。因此本文还引入无参考图像质量评价指标NIQE来评价超分辨率重建图像的感知质量。NIQE是一种将输入图像与预先用自然图像集建立好的模型对比的方法,其值越低代表图像感知质量越好。由于不需要低分—高分图像对,超分辨率重建算法可以直接在原始测试数据上运行,也在一定程度上淡化了图4所示的空间分辨率改变的影响。表5是Meta-RDN和Meta-RDCAN直接对澳门科普卫星数据按照1.5和2.0倍率进行超分辨率重建的结果,且已用粗体标出横向对比时更优的结果。可以看出用NIQE作为评价指标时,也能得出上述使用有参考指标得到的结论,该结果进一步证明了使用通道注意力机制的有效性。注:黑体表示横向对比时更高的NIQE。表5在澳门科普卫星数据上计算NIQE的结果Table 5Results of calculated NIQE on Macao satellite data","result":"通过定性和定量分析,对比了基准模型Meta-RDN和改进模型Meta-RDCAN在遥感图像超分辨率重建任务上的表现。实验首先在DIV2K数据集上预训练两种模型,然后在AID、UCMerced和WIDS遥感数据集上进行微调。研究了不同比例因子对超分辨率重建的影响,并在真实遥感数据上进行了测试。使用了PSNR、SSIM和NIQE等评价指标,以及算法运行时间来衡量模型性能。\n\n数据集涵盖了DIV2K、AID、UCMerced、WIDS、Set5和澳门科普卫星的真实遥感图像。AID数据集包含10种场景的10000张图像,UCMerced数据集包含21类地物图像,WIDS数据集则包含11000张卫星影像。实验中对数据进行了双三次下采样处理,以获得低分辨率和高分辨率图像对。\n\n实验设置中,使用两块RTX 2080Ti显卡进行训练,批量大小为2,训练轮次为200。损失函数采用L1损失,优化算法使用ADAM。实验结果显示,随着比例因子的增大,峰值信噪比逐渐下降,但当比例因子在2.5以下时,重建图像质量可接受。Meta-RDCAN模型在不同数据集上的表现优于Meta-RDN,尤其是在UCMerced数据集上训练的模型。\n\n实验结果表明,空间分辨率对遥感图像超分辨率重建任务有重要影响。训练数据应选择覆盖空间分辨率范围广、包含丰富细节的遥感图像。此外,Meta-RDCAN中添加的通道注意力机制能提升网络性能,但以计算速率降低为代价。峰值信噪比和结构相似度之间不一定是正相关关系,分析模型性能时需根据具体任务选择更合适的评价指标。\n\n为适应遥感图像缺少高分辨率图像的实际应用场景,本文还引入了无参考图像质量评价指标NIQE。NIQE结果进一步证明了使用通道注意力机制的有效性。总体而言,Meta-RDCAN模型适用于比例因子在4.0以内的遥感图像任意尺度超分辨率重建任务。","language":"zh"},{"title":"基于元学习和密集残差注意力的遥感图像任意尺度超分辨率重建","chapter":"4 结论","content":"针对遥感图像任意尺度超分辨率重建的问题,本文提出采用元学习和密集残差注意力网络的超分辨率重建方法Meta-RDCAN。本方法应用的元上采样模块通过权重预测、位置投影和特征映射3大功能实现任意尺度超分辨率重建,同时从充分提取遥感图像局部地物目标信息的角度出发设计密集残差注意力特征提取网络,恢复遥感图像的细节信息。本文在DIV2K、AID、UCMerced、WIDS、Set5和来自澳门科普卫星的真实遥感图像数据上进行了充分实验,分析了空间分辨率变化对超分辨率重建结果的影响,并基于损失曲线验证了先在通用数据集上预训练、然后在遥感数据集上微调的训练方案的合理性。基于不同比例因子的测试结果表明本文所提模型适用于比例因子在4.0以内的遥感图像任意尺度超分辨率重建任务。对比实验结果说明添加通道注意力的改进模型在峰值信噪比和结构相似度上能取得比基准模型更好的表现;基于无参考指标NIQE的对比结果也能说明改进模型超分辨率重建结果的感知质量优于基准模型。以上研究证明了基于元学习和密集残差注意力的遥感图像任意尺度超分辨率重建方法的有效性。本文的主要贡献包括两方面:(1)针对遥感图像任意尺度超分辨率重建问题,采用元学习的方法自适应调整模型内部参数,实现用单一模型对单张遥感图像进行连续的整数和非整数倍超分辨率重建。(2)针对重建结果中细节缺失、地物目标边缘不清晰的问题,采用通道注意力机制改进密集残差网络,提升了超分辨率重建结果的质量。","result":"提出一种基于元学习和密集残差注意力网络的遥感图像任意尺度超分辨率重建方法Meta-RDCAN。通过元上采样模块和密集残差注意力特征提取网络,实现任意尺度超分辨率重建并恢复图像细节。实验结果表明,该方法适用于比例因子在4.0以内的遥感图像超分辨率重建任务,改进模型在峰值信噪比和结构相似度上表现更佳,且感知质量优于基准模型。主要贡献包括:1) 采用元学习自适应调整模型参数,实现连续整数和非整数倍超分辨率重建;2) 引入通道注意力机制改进密集残差网络,提升重建质量。","language":"zh"}]
      魏小源,孟钢,张浩鹏,姜志国
      2024, 28(7): 1735-1745. DOI: 10.11834/jrs.20233267
      基于元学习和密集残差注意力的遥感图像任意尺度超分辨率重建
      摘要:超分辨率重建技术在卫星遥感图像信息智能处理领域中有重要的应用。现有面向遥感图像超分辨率重建的深度学习方法大多只能处理一种比例因子的超分辨率重建任务,在多尺度层面上缺少泛化性,难以满足真实遥感图像多倍率连续放大的超分辨率重建任务需求。为解决遥感图像超分辨率重建过程中的多尺度放大问题,本文采用元学习的方法,在构建单一自适应模型的基础上实现对遥感图像的任意尺度超分辨率重建,提升遥感图像的空间分辨率,利用密集残差网络和通道注意力机制重建遥感图像中地物纹理、目标边缘等丰富细节信息。在真实遥感图像上的定量实验表明,本文所提方法重建结果的峰值信噪比能达到40 dB以上,同时在多种数据上的定量和定性实验结果证明了本文方法的有效性。  
      关键词:超分辨率重建;遥感图像;任意尺度;元学习;密集残差网络;通道注意力机制   
      257
      |
      614
      |
      0
      <HTML>
      <网络PDF><Enhanced-PDF><Meta-XML>
      <引用本文> <批量引用> 45369062 false
      发布时间:2024-07-31
    • [{"title":"分级监督范式指导下的遥感图像超分辨率方法","chapter":"1 引言","content":"近年来,随着在轨卫星数量的增加,遥感图像数据量快速增加,为目标检测(Cheng和Han,2016;Deng等,2018;Li等,2020)、语义分割(Kampffmeyer等,2016;Diakogiannis等,2020;Yuan等,2021)、场景分类(Lu等,2017;Cheng等,2017;Xie等,2019)等任务提供了充足的数据基础。作为输入数据,遥感图像的分辨率对上述图像处理任务精度有较大影响。清晰的高分辨率遥感图像是上述任务取得良好结果的基础。与直接提升遥感卫星成像设备分辨率相比,超分辨率作为一项便捷、低成本提升遥感图像分辨率的技术,可为各类图像处理任务提供更加清晰的数据集,具有广阔的应用价值。现有基于深度学习的超分辨率方法采用卷积神经网络(Wang等,2018;Zhang等,2019;Arun等,2020;陈行和罗斌,2021;唐晓天 等,2022)、生成对抗网络(Jiang等,2019;Gong等,2021;Xu等,2022)、Transformer网络(Liang等,2021;Lei等,2022;Hu等,2022)等不同的骨干网络结构,但其总体网络结构大都具有一个共同点:只对网络输出结果进行一次监督。无论超分辨率倍率如何,现有超分辨率方法大多“一步到位”式地将低分辨率图像重建为高分辨率图像,并且只在网络输出结果处施加一次监督。监督次数的不足将导致超分辨率结果中存在细节损失和伪细节,这对于基于遥感图像的灾害预测(Twumasi等,2019;Im等,2019;Ye,2022;Wang等,2021)、环境保护(甄佳宁 等,2022)、侦察监视(Voinov等,2018)等任务有较大影响,有时甚至会导致严重后果。因此,需尽量减少超分辨率结果中的细节损失与伪细节。在SRCNN方法(Dong等,2014)中,深度网络第一次被运用至超分辨率技术,构建了由特征提取和上采样两大基本模块组成的超分辨率网络基本结构。此后,基于深度学习的超分辨率技术快速发展。FSRCNN方法(Dong等,2016)将SRCNN的前上采样结构修改为后上采样结构,结合修改了特征维度和卷积核参数的网络模型,实现了超分辨率效果与处理速度的同步提升。ESPCN方法(Shi等,2016)则针对超分辨率网络的上采样模块进行改进,提出了适用于图像上采样的亚像素卷积方法,进一步提升了超分辨率效果。在EDSR方法(Lim等,2017)、SRGAN方法(Ledig等,2017)、SwinIR方法(Liang等,2021)中,残差卷积网络、生成对抗网络、Transformer网络被分别被引入至超分辨率网络中,通过增强网络特征提取能力以促进超分辨率效果提升。近年来,超分辨率技术持续发展,多种方法被提出。BSRGAN方法(Zhang等,2021)针对现有基于退化模型的方法对多场景适应性差的问题,提出了包含更复杂模糊、噪声的退化模型,以此为基础训练盲超分辨率对抗生成网络,可使得网络具有更强的泛化性能,满足多种场景下的超分辨率需求。NLSA方法(Mei等,2021)中指出将非局部先验作为正则化加入超分辨率过程,有利于缓解超分辨率非适定性。非局部计算需计算每个点间的相关性,其计算量与图像尺寸的平方成正相关,计算量较大。针对这一问题,NLSA方法提出了一种稀疏的全局注意力模块,通过局部敏感哈希搜索减少计算量,并将其嵌入现有例如EDSR网络以提升超分辨率效果。DCSR方法(Wang等,2021)使用同一成像设备的长焦影像与广角影像进行超分辨率网络训练,无需引入外源图像作为监督。结合自监督自适应机制,取得了良好的超分辨率效果,这对于具备多种成像设备的遥感卫星也具有一定的参考意义。针对目前超分辨率过程中文字区域重建效果不佳的问题,TATT(Ma等,2022)提出了一种文字注意力网络结果。文字注意力网络首先提取文字语义作为先验信息,在文字重构过程中对其进行语义引导。同时,设计文字结构一致性损失函数,对超分辨率重建结果中扭曲变形文字进行监督。遥感影像中也存在地面标识线、建筑墙体文字等细节,TATT方法具有一定的参考意义。目前,超分辨率技术的图像重建效果已经较其问世时有显著提升,但仍与高分辨率真值图像存在差距。这是因为超分辨率的非适定性为超分辨率效果提升带来了困难。对于同一张低分辨率图像,其可由多张不同的高分辨率图像下采样获得。同样,由同一张低分辨率图像出发,可将其重建为多张不同的高分辨率图像,而超分辨率任务便是从所有重建图像中筛选出最接近真值的一张。针对超分辨率非适定性的研究伴随着超分辨率技术的发展而同步进行。在VDSR方法(Kim等,2016)中,研究人员认为网络层数不足,感受野较小会加剧超分辨率非适定性。增加网络层数,增强网络特征提取能力是缓解超分辨率非适定性的途径之一。VDSR方法通过加深卷积网络层数来扩大网络感受野,利用更大范围的图像特征来恢复图像细节,与层数较少的SRCNN方法相比,超分辨率效果显著提升。随着深度学习技术的发展,其网络结构层数与参数量急剧增加。同时,近年来新兴的Transformer网络相比卷积神经网络已具备覆盖整幅图像的感受野。因此,单纯通过堆叠网络层数和增大感受野范围的方式已难以有效抑制超分辨率非适定性。SRGAN方法首次将生成对抗网络应用至超分辨率技术,以取代常用的均方误差损失函数。这是因为均方误差损失函数虽有利于使超分辨率结果具有较高的峰值信噪比,但也具有过度平滑和丢失高频细节的问题。SRGAN方法使用生成对抗网络结构对超分辨率网络进行训练,引导网络输出更接近真值的图像,在提升图像细节重建效果方面取得了良好效果。上述两种思路均实现了超分辨率效果提升,但未能对超分辨率非适定性和网络监督次数之间的关系进行讨论。综上,超分辨率的非适定性主要体现在由低分辨率图像上采样至超分辨率图像时的不唯一性。这导致由低分辨率图像映射至高分辨率图像的函数空间过大,给深度网络训练、拟合及超分辨率效果提升造成困难。针对这一问题,DRN方法(Guo等,2020)提出了具有两级监督的双重回归网络结构。在超分辨率过程前半段,DRN方法与大多超分辨率方法一致,即将低分辨率图像作为输入,依次进行特征提取和上采样处理,得到超分辨率结果,在超分辨率结果与高分辨率真值间计算损失函数并迭代更新网络参数。完成上述处理后,DRN方法为超分辨率添加了后半段过程,将超分辨率结果再次下采样至与低分辨率输入图像相同尺寸,在下采样结果与输入图像间计算第二个损失函数并再次迭代更新网络参数。因此,DRN方法具有两次监督,超分辨率非适定性得到一定程度的抑制。然而,DRN方法的第二次监督施加在下采样的超分辨率结果上,超分辨率重建的图像细节可能在下采样过程中再次丢失,基于低分辨率图像求出的损失函数可能也不完全适合引导高分辨率细节的重建。此外,DRN方法的监督次数随较单次监督有所增加,但未尝试将更多次监督施加至超分辨率过程中。基于上述问题及研究现状,本文提出基于分级监督的遥感图像超分辨率方法(MSSR),其流程如图1所示,与现有超分辨率方法大都采用一步到位式结构和单次监督相比,本文方法将超分辨率过程分为多个阶段,借助分级监督结构将经验知识充分嵌入超分辨率过程。本文的主要创新点为:(1)提出分级监督架构,多级真值图像被作为监督施加在超分辨率网络中各级同构超分辨率模块的输出处,将经验知识充分嵌入超分辨率过程,指引图像细节恢复,提升超分辨率效果。(2)设计轻量化的、具有可调超分辨率倍数的同构超分辨率模块(BSRC),便于灵活搭建具有不同级数不同超分辨率倍数的分级监督网络。各级BSRC网络结构基本相同,便于训练参数迁移,缩短网络训练时间。(3)探究分级监督网络总体超分辨率倍数一定时,不同的分级级数和各级超分辨率倍数组合对超分辨率效果的影响,给出最佳超分辨率网络分级方式。在本文构建的新数据集(RSSRD)和两个已有公开数据集上进行实验,将本文方法与常用超分辨率方法对比,本文方法具有更好的超分辨率效果。图 1基于分级监督的超分辨率网络流程示意图Fig. 1Flow graph of super-resolution network based on multi-level supervision","result":"介绍了遥感图像超分辨率技术的重要性和应用背景,指出高分辨率遥感图像对于目标检测、语义分割和场景分类等任务至关重要。同时,分析了现有基于深度学习的超分辨率方法的局限性,如单次监督导致的图像细节损失和伪细节问题。文章回顾了超分辨率技术的发展,包括SRCNN、FSRCNN、ESPCN、EDSR、SRGAN、SwinIR等方法,并讨论了它们在提升超分辨率效果方面的贡献。此外,还提到了BSRGAN、NLSA、DCSR和TATT等方法在解决特定问题方面的创新。文章强调了超分辨率非适定性问题,并介绍了VDSR和SRGAN等方法在缓解该问题方面的尝试。最后,提出了本文的主要创新点,即基于分级监督的遥感图像超分辨率方法(MSSR),通过多级真值图像监督和轻量化的同构超分辨率模块,实现更优的超分辨率效果,并在新构建的数据集和公开数据集上进行了实验验证。","language":"zh"},{"title":"分级监督范式指导下的遥感图像超分辨率方法","chapter":"2 研究方法","content":"如上文所述,超分辨率是一个非适定性问题。超分辨率的非适定性会导致超分辨率重建结果中出现细节损失和伪细节。为了缓解超分辨率的非适定性。我们提出了基于分级监督的遥感图像超分辨率方法,总体网络结构由多个同构超分辨率模块组成,模块数量及各模块超分辨率倍数可灵活调整。多次监督被分别施加至各模块输出处,各级监督采用不同的损失函数,网络各部分具体实现细节将在本节依次阐述。2.1 分级监督超分辨率网络分级监督超分辨率网络结构如图2所示,其由多个同构超分辨率模块和分级监督结构组成。得益于同构超分辨率模块的级联结构,分级监督超分辨率网络可处理多种放大倍率的超分辨率任务。对于较小倍率,可使用较少的同构超分辨率模块,对于较大倍率,则可考虑适当增加模块数量,使网络整体在参数量与超分辨率效果间取得较好的平衡。每个同构超分辨率模块的图片放大倍数则由网络整体超分辨率倍数和分级级数共同决定。图 2分级监督超分辨率网络结构图Fig. 2Structure of super-resolution network based on multi-level supervision同构超分辨率模块由多尺寸局部特征提取、全局特征提取和图像重建组成,其中,各个模块特征提取部分网络结构相同,图像重建可设置不同超分辨率倍率,兼具通用性与灵活性。对于通用性方面,分级监督网络在相较于单级监督网络引入更多经验知识的同时,也不可避免地导致网络层数的增加,进而导致网络训练时间延长。若在进行整体网络训练时,逐个训练各同构超分辨率模块,则将导致训练过程的枯燥与容差。因此,将各个模块特征提取部分设计为相同网络结构,便于参数迁移。在灵活性方面,每个模块的图像重建部分的超分辨率倍数可自定义,便于搭建多种分级监督网络。在进行分级监督超分辨率网络训练时,首先充分训练第一级同构超分辨率模块,得到较好的第一级输出结果。随后,将第一级同构超分辨率模块特征提取部分已训练完成的网络权重迁移至后续模块,作为后续模块训练起始权重。最后,运行网络完整超分辨率流程,使输入图像经各级模块处理并放大至所需分辨率,同步训练各级模块,微调网络整体至最佳状态。为便于表述分级监督超分辨率网络结构和参数,设网络总体超分辨率倍数为,网络分级级数为,即分级监督网络借助个同构超分辨率模块完成倍超分辨率任务。在每个模块的输出处,超分辨率结果受对应的真值图像监督。这些真值图像由高分辨率真值图像下采样得到,根据各级模块输出图像尺寸,下采样至相应大小。分级监督超分辨率网络的总损失函数可以表示为 (1)式中,为分级监督超分辨率网络的总损失函数,为第级同构超分辨率模块的损失函数,为第级同构超分辨率模块的损失函数的权重。由式(1)可见,分级监督超分辨率网络的训练目标是将各级模块损失函数之和降至最低。同时,考虑到不同模块可能具有不同的超分辨率倍数,为各模块设置了可调整的权重。基于上述设计的分级监督超分辨率网络有利于推动超分辨率效果提升,一方面,分级监督结构引入多级监督图像,充分嵌入经验知识,及时地在各级超分辨率模块输出处监督并纠正错误恢复的图像细节,防止其对后续模块造成不利影响。另一方面,分级监督结构减少了每个同构超分辨率模块在超分辨率过程中需要预测的像素数量。例如,对于常用的一步到位式超分辨率方法,仍假设超分辨率倍数为,则网络需从1个像素预测个像素。对于分级监督超分辨率网络,假设每个同构超分辨率模块倍率相同,则每个模型仅需从1个像素预测个像素。所需要预测的像素数量减少,则由低分辨率图像映射至较高分辨率图像所有可能的函数空间减少,每级超分辨率非适定性减弱,有利于减少超分辨率结果中细节损失和伪细节的出现。2.2 同构超分辨率模块同构超分辨率模块是分级监督超分辨率网络的核心组件,由多尺度局部特征提取、全局特征提取和图像重建组成。遥感图像包含丰富多样的地物细节,较强的特征提取能力是获得良好超分辨率效果的基础。因此,设计具有双重特征提取网络的同构超分辨率模块,同时使用卷积神经网络和Transformer网络进行特征提取。多尺度局部特征提取用于提取图像浅层局部特征信息,全局特征提取则具有更大的感受野,用于在更大范围内提取图像深层特征信息。多尺度局部特征模块提取部分基于轻量化的金字塔型卷积网络设计,卷积层数为3。输入图像依次经各个卷积层处理,得到3张不同尺寸的特征图。各卷积层参数如表1所示。表 1各卷积层参数设置Table 1Parameter settings for each convolutional layer通过设置第1个卷积层尺寸、步长、填充值为3、1、1,使得到的第1张特征图尺寸如输入图像相同。设置第2、3个卷积层尺寸、步长、填充值分别为3、2、1,使得特征图经处理后尺寸减半。第2、3张特征图被传入特征上采样层,通过亚像素卷积方法上采样至与输入图像相同尺寸,与第1张特征图按通道连接,实现特征融合。融合特征图经残差结构与输入图像相加后作为多尺度局部特征提取模块的输出。以上过程可表示为 (2)式中,为低分辨率输入图像,代表第1个卷积层的处理过程,为第1个卷积层的输出特征图。被送入第2、3个卷积层进一步处理,可表示为 (3) (4)式中,‍表示特征上采样层的处理过程。3个卷积层的输出按通道连接并与输入图像进行残差连接,可表示为 (5)式中,表示按通道连接,为多尺寸局部特征提取模块的输出,送入全局特征提取模块做进一步处理。全局特征提取基于Swin Transformer(Liu等,2021)骨干网络设计,Swin Transformer为目前常用的图像处理任务骨干模型,由窗口注意力层和移动窗口注意力层组成一个基本网络块(STB),由多个STB组成一个基本网络层(STL),融合卷积神经网络与Transformer网络的特点,具有感受野大、参数量少的优点。针对分级监督超分辨率任务的需求,首先修改网络层间特征图处理方式,使特征图尺寸不再逐级缩小,而是一直保持与输入图像相同的尺寸,便于进行图像重建处理。其次,在STL内和整个全局特征提取部分添加残差连接结构,STL内的残差连接结构是否生效由STB网络数量决定,当STB数量少于等于2时,残差连接结构不生效,当STB数量大于2时,残差连接结构生效。全局特征提取网络中第个STL层的处理过程可表示为 (6)式中,表示STL层,表示第个STL层的输出。假设STL层数量为4,则全局特征提取网络的输出为 (7)即最后一个STL层的输出与多尺寸局部特征提取网络的输出进行残差连接。STB由层归一化、MLP层、窗口注意力结构和平移窗口注意力结构组成。MSSR网络包含4个STL模块,每个STL分别由2、2、6、2个STB组成。其中,第一个STL中包含Patch Embedding层,用于输入图像分块和编码。最后,被送入图像重建网络,得到最终的超分辨率结果: (8)图像重建网络由卷积层和上采样操作组成,可通过调整上采样参数设置实现包括非整数倍在内的多种倍率图像重建。2.3 超分辨率网络分级方式在搭建分级监督网络完成超分辨率任务时,需首先确定网络的总超分辨率倍数。当网络的总超分辨率一定时,再确定合适的网络分级级数和各级同构超分辨率模块的倍数。此外,各级同构超分辨率模块的倍数也有多种组合方式。对于确定的超分辨率任务,网络总超分辨率倍数也是确定的。随着分级级数的增加,监督次数增加,超分辨率非适定性减弱。同时,网络总层数增加,参数量增加,网络训练时间延长。综合考虑超分辨率网络性能和参数量,则超分辨率网络分级方式的优化目的如下: (9) (10)式中,为第级同构超分辨率模块,为第级超分辨率倍数,为第级超分辨率结果,为第级超分辨率真值。表示根据第级超分辨率结果和真值计算的损失函数,用于衡量第级的超分辨率效果。为第级同构超分辨率模块参数量,用于衡量网络复杂程度和计算量。和分别为权重系数。由上式可见,最佳的超分辨率网络分级方式应再各级网络性能与复杂度间取得良好的平衡,在可接受的参数量之内达到最好的超分辨率效果,使二者值之和最小。同时,由式(9)可以看出,网络损失函数与参数量之和与网络分级级数之间的关系难以预测。不妨假设分级级数从1开始增加,最初,分级级数较小,随着各级网络被充分训练,分级技术的增加有利于网络中监督次数的增加,减少超分辨率结果中的细节损失与伪细节的出现,反应在式(9)中,则是各级模块损失函数之和减小。此时,分级级数的增加虽会导致网络层数增加,但通过设计合适的轻量化超分辨率模块以控制参数量,仍可实现网络损失函数与参数量之和的减小。随着分级级数继续增加,对于一定倍率的超分辨率任务,同构超分辨率模块数量可能已经饱和。更多的网络分级带来的性能提升有限,但大大增加了网络参数量。实际上,在后文展示的实验结果一定程度上验证了这一分析,在4倍超分辨率任务上使用分级监督结构比在2倍超分辨率任务上取得了更大幅度的性能提升,过多的网络分级对于2倍超分辨率是冗余的,但可以显著提升4倍超分辨率效果。在确定了网络分级级数后,每个同构超分辨率模块的超分辨率倍数选择也是值得讨论的问题。假设网络分级级数为,第级模块超分辨率倍数为,则网络分级级数,各级超分辨率倍数于网络总超分辨率倍数的关系如下: (11)由式(11)可见,当增加时,各级超分辨率倍数减小,当趋于无穷大时,趋向于1。这表示每级模块只以非常小的超分辨率倍数放大网络,也只需非常少的参数完成本级超分辨率任务。因此,当趋向于无穷大时,网络总参数量的增减趋势难以预测。综上所述,需对分级监督网络分级方式进行研究,寻找超分辨率网络性能、参数量与网络分级方式间的关系。在进行关于分级监督网络分级方式的实验时,从两个方面展开,即网络分级级数与各级超分辨率倍数。在网络分级级数方面,逐渐增加网络分级级数,综合比较网络总参数量与超分辨率效果,得到最佳分级级数。在网络各级超分辨率倍数方面,设计等差、等比两种均匀分布组合和前段密集、后段密集两种不均匀分布组合,以4倍超分辨率为例,假设将网络分为4级,则各级超分辨率输出相较于输入图像的放大倍数如表2所示。表2网络各级超分辨率倍数组合方式Table 2Combination of super-resolution scale factors of each BSRC2.4 损失函数在深度学习发展过程中,研究学者提出了多种损失函数。其中,损失函数和感知损失函数(Johnson等,2016)是图像处理领域常用的两个损失函数,损失函数计算原理简单,可有效提升超分辨率结果的峰值信噪比(PSNR),但存在过度平滑,丢失高频细节的问题。对于本文提出的分级监督超分辨率网络,在各级设计不同的损失函数,在第1、2级网络输出处使用感知损失函数,在第3、4级网络输出处使用感知损失和损失函数的组合。第1、2级的损失函数可表示为 (12) (13)式中,为感知损失,表示第级网络的损失函数,为权重系数,为第2级网络超分辨率倍数。感知损失函数使用从网络输出图像和真值提取的特征图计算损失函数,有利于在超分辨率早期阶段找出图像细节损失或伪细节产生的深层原因,防止其对后续超分辨率模块产生影响。同时,感知损失函数有利于引导超分辨率网络生成视觉效果更好的图像。在第3、4级网络中,超分辨率结果即将作为网络的处理结果并输出,同时接受损失函数与人眼视觉的双重评估。因此,在第3、4级网络中采用包含感知损失和损失函数的组合损失函数,可表示为 (14)式中,和为权重系数。令、,通过调整寻找和最优值。经多次预先训练尝试,当取0.44,取0.56左右时,超分辨率结果具有较高的SSIM、PSNR值。同时,考虑到超分辨率图像视觉效果与SSIM、PSNR不具有一致性,当SSIM和PSNR较高时,视觉效果反而可能下降。因此,取和为0.5,赋予感知损失和损失平等的权重,使超分辨率结果兼具较好的视觉效果和较高的SSIM、PSNR值。依此为基础,构建第3、4级网络损失函数。考虑分级监督网络级数和各级超分辨率倍数,第3、4级网络损失函数可表示为 (15)如式(12)、(14)所示,第2、3、4级网络损失函数均包含了其之前网络模块的损失,以增强分级监督网络中早期细节恢复效果对后期的影响,同时,为了避免重复计算,将权重的分母设计为。当与间隔网络级数越多、距离越远时,越大,权重越小。","result":"介绍了一种基于分级监督范式的遥感图像超分辨率方法。超分辨率是一个非适定性问题,易导致细节损失和伪细节。为解决这一问题,提出了一种由多个同构超分辨率模块组成的网络结构,这些模块数量和超分辨率倍数可灵活调整,并通过多次监督施加不同的损失函数。\n\n2.1节详细描述了分级监督超分辨率网络的结构,该网络由多个同构超分辨率模块和分级监督结构组成,能够处理不同放大倍率的超分辨率任务。每个模块的图片放大倍数由网络整体超分辨率倍数和分级级数共同决定。同构超分辨率模块由多尺寸局部特征提取、全局特征提取和图像重建组成,具有通用性和灵活性。训练时,先训练第一级模块,然后将权重迁移至后续模块,并同步训练各级模块。\n\n2.2节讨论了同构超分辨率模块的设计,包括多尺度局部特征提取和全局特征提取。多尺度局部特征提取基于轻量化的金字塔型卷积网络设计,而全局特征提取基于Swin Transformer骨干网络,具有大感受野和少参数量的优点。\n\n2.3节探讨了超分辨率网络的分级方式,包括确定网络的总超分辨率倍数、分级级数和各级模块的倍数。实验表明,分级监督结构在4倍超分辨率任务上比2倍任务上取得了更大幅度的性能提升。\n\n2.4节讨论了损失函数的选择。在第1、2级网络输出处使用感知损失函数,而在第3、4级网络输出处使用感知损失和损失函数的组合。通过调整权重系数,可以找到使超分辨率结果具有较高SSIM、PSNR值的最优值。同时,考虑视觉效果与SSIM、PSNR的不一致性,赋予感知损失和损失平等的权重,以获得较好的视觉效果和较高的SSIM、PSNR值。","language":"zh"},{"title":"分级监督范式指导下的遥感图像超分辨率方法","chapter":"3 实验结果与分析","content":"3.1 实验数据近年来,在轨遥感卫星数量快速增长,遥感图像数据资源日益丰富,但现有遥感图像数据集并不完全适用于超分辨率任务。一方面,一些数据集制作时间较早,图像分辨率受当时技术水平所限,难以为超分辨率任务提供充足的图像细节信息。另一方面,大多数数据集针对目标检测任务制作,包含大量的车辆、飞机和舰船图像,缺乏建筑、植被、水面等区域的图像,地物种类和细节不够丰富。因此,本文针对超分辨率任务制作了包含多种场景和地物细节的新数据集RSSRD(图3)。图3RSSRD数据集部分图像展示Fig. 3Selected images from the RSSRD dataset除本文新构建的数据集外,为了充分训练和测试本文方法与对比方法,使用UCMerced(Yang和Newsam,2010)和AID(Xia等,2017)两个现有公开数据集作为训练和测试数据,各数据集中图像波段、分辨率、数据规模如表3所示。表 3各数据集参数表Table 3Details of each dataset实验软件环境为安装10.0版本CUDA和1.6.0版本Pytorch 的Ubuntu 18.04系统。在实验结果方面,使用峰值信噪比(PSNR)和结构相似度(SSIM)作为超分辨率效果评价指标。3.2 分级监督网络分级方式实验构建分级监督网络需确定网络分级级数与各级超分辨率倍数。对于网络分级级数,逐级增加超分辨率模块数量,对比超分辨率效果,4倍超分辨率实验结果如表4所示。对于4倍超分辨率,当网络分级级数由1增加至4时,PSNR与SSIM增幅明显,超分辨率网络性能提升。当网络分级级数由4增加至6时,PSNR与SSIM增幅显著减小,此时继续增加网络级数所带来的性能提升有限。因此,4级网络是较为适合4倍超分辨率的网络分级结构。表 4不同网络分级级数及实验结果Table 4Experiment results of networks with different number of levels确定网络分级级数后,需确定各级网络超分辨率倍数,对于4级4倍超分辨率网络,各级网络超分辨率倍数组合方式及实验结果如表5所示。表5各级网络超分辨率倍数组合方式及实验结果Table 5Experiment results for different combinations of BSRC super-resolution scale factors由表5可见,在4倍4级监督超分辨率过程中,等差、等比两种倍数组合方式的超分辨率效果明显优于前段密集、后段密集两种方式,等比组合方式优于等差组合方式。因此,分级监督超分辨率网络中各级超分辨率倍数按等比数列分布时可取得更好的超分辨率效果。3.3 分级监督网络超分辨率效果实验由上述实验确定网络分级级数和各级网络超分辨率倍数后,构建分级监督网络进行训练与测试,并将实验结果与现有常用超分辨率方法对比。选取的对比方法为SRGAN、RDN(Zhang等,2018a)、RCAN(Zhang等,2018b)、DRN、TransENet(Lei等,2022)、SwinIR、ESRGCNN(Tian等,2022)。其中,SRGAN采用生成对抗网络结构,TransENet采用卷积神经网络与Transformer网络结合的结构,其余方法采用卷积神经网络结构。以上方法均在发表时取得了最佳(SOTA)结果。经充分训练后,使用PSNR和SSIM两种评价指标对分级监督超分辨率网络及对比方法的实验结果进行评估,如表6所示。由表6中数据可见,分级监督超分辨率网络在两种指标、两类超分辨率任务和3个数据集上,除个别数据外,均优于现有常用超分辨率方法。在4倍超分辨率任务中,本文方法比现有方法取得了约0.33—1.48 dB的PSNR提升和约0.0225—0.1188的SSIM提升。在两倍超分辨率任务中,本文方法比现有方法取得了约0.07—0.27 dB的PSNR提升和约0.0069—0.0407的SSIM提升。可以看出,分级监督网络在4倍超分辨率任务上取得了比两倍超分辨率任务更大幅度的性能提升,与前文分析相符。表6分级监督超分辨率网络与现有超分辨率网络对比Table 6Comparison of MSSR method with existing super-resolution methods分级监督超分辨率网络与对比方法的部分实验结果图像如图4所示,其中,HR为高分辨率真值图像,GT为所裁区域的真值图像。在图4中,依次展示了6组图片的实验结果及其对比。在第1、2组实验结果中,分级监督超分辨率网络输出的重建图像与对比方法相比,重建出了更多线条细节,具有更少的细节损失。在第3—6组实验结果中,分级监督超分辨率网络输出的重建图像与对比方法相比具有更少的伪细节。图4分级监督超分辨率网络与现有超分辨率网络实验结果对比Fig. 4Comparison of experiment results of MSSR method with existing super-resolution methods此外,分级监督网络具有一定程度的轻量化设计,其参数量在对比方法仅多于SRGAN、ESRGCNN,各方法运算时间对比如表7所示,可见其运算时间也在众多对比方法中具有一定优势。综上所述,分级监督网络通过引入更多监督,将经验知识充分嵌入超分辨率过程,抑制了超分辨率的非适定性,有效提升了超分辨率效果,且具有一定的轻量化设计。表 7各方法运算时间对比Table 7Time per iteration of each method /s本文提出的MSSR网络由BSRC拼接而成,可根据超分辨率倍数灵活调整分级监督级数以及各级超分辨率倍数。在实验部分,本文主要对两倍和4倍超分辨率下的网络性能进行了实验。此外,对4倍以上超分辨率任务进行了简单的实验探索,MSSR网络在两倍至6倍超分辨率任务中的性能如图5所示。图5不同倍率下的超分辨率性能Fig. 5MSSR performance in super-resolution tasks of different scale factors由图5可见,随超分辨率倍率增大,网络性能下降。这是因为随着超分辨率倍率增大,超分辨率过程的非适定性增强,超分辨率结果中出现细节损失和伪细节的概率增大。因此,评价指标SSIM与PSNR的值减小。同时,注意到曲线有趋于平缓的趋势,推测可能随着超分辨率倍率增大,需要由低分辨率图像预测出更多的地物细节,但得益于本文的分级监督结构,可有效控制图像细节损失,网络性能不会随超分辨率倍率增加而出现较大程度的下降。未来需借助更多相关实验来探索MSSR网络在更大倍率超分辨率任务中的性能表现。","result":"实验结果与分析章节首先指出现有遥感图像数据集在超分辨率任务上的局限性,并介绍了为解决这一问题而创建的新数据集RSSRD。实验使用了UCMerced和AID数据集进行训练和测试,采用PSNR和SSIM作为评价指标。在分级监督网络的构建中,通过实验确定了4级网络结构适合4倍超分辨率任务,且等比数列分布的超分辨率倍数组合效果更佳。对比实验显示,所提出的分级监督超分辨率网络在多个数据集上的性能优于现有常用方法,尤其在4倍超分辨率任务中取得了显著提升。实验图像结果进一步证实了所提方法在细节重建和减少伪细节方面的优势。此外,所提网络具有轻量化特点,运算时间具有竞争力。MSSR网络能够根据超分辨率倍数灵活调整,实验探索表明,随着超分辨率倍率的增加,网络性能有所下降,但分级监督结构有助于控制细节损失,维持性能稳定。","language":"zh"},{"title":"分级监督范式指导下的遥感图像超分辨率方法","chapter":"4 结论","content":"超分辨率是一个典型的非适定性问题,现有超分辨率方法大多采用单级监督结构,监督次数不足,导致超分辨率结果中出现细节损失和伪细节。针对这一问题,提出基于分级监督的遥感图像超分辨率方法,使用分级监督结构引入多级监督图像,将经验知识充分嵌入超分辨率重建过程,抑制其非适定性;设计轻量化的、超分辨率倍数可调整的同构超分辨率模块,为搭建不同级数不同超分辨率倍数的分级监督网络提供了便利;对比不同级数、不同超分辨率倍数组合方式下的超分辨率结果,给出搭建分级监督网络的思路。实验结果表明,分级监督网络有利于抑制超分辨率非适定性,减少超分辨率结果中的细节损失与伪细节,提升超分辨率效果。同时,本文也存在一些不足。一方面,仅探究了分级监督网络在两倍和4倍超分辨率上的效果,未研究其对8倍、16倍等更高倍率的超分辨率的影响。另一方面,在两倍和4倍超分辨率任务中,尝试的网络分级级数与各级超分辨率组合方式有限。今后可基于同构超分辨率模块,搭建更多类型的分级监督网络,研究其对更大倍率超分辨率任务的影响,探究超分辨率非适定性与分级监督网络的深层关系。","result":"总结了基于分级监督的遥感图像超分辨率方法,指出其能有效抑制非适定性问题,减少细节损失和伪细节,提升超分辨率效果。同时指出了研究的局限性,包括仅在两倍和4倍超分辨率上进行了探究,以及网络分级级数和组合方式的尝试有限。未来工作将基于同构超分辨率模块,构建更多类型的分级监督网络,研究其在更大倍率超分辨率任务中的影响,以及与超分辨率非适定性的深层关系。","language":"zh"}]
      李明锴,徐其志
      2024, 28(7): 1746-1759. DOI: 10.11834/jrs.20243274
      分级监督范式指导下的遥感图像超分辨率方法
      摘要:超分辨率技术可提升遥感图像空间分辨率,为基于遥感图像的目标检测、场景分类等任务提供更加清晰的数据集,具有广泛的应用价值。然而,现有基于深度学习的超分辨率方法存在监督次数不足的问题,导致超分辨率重建图像中易出现细节损失和伪细节。针对这一问题,本文提出基于分级监督的遥感图像超分辨率方法(MSSR)。首先,提出了一个分级监督网络架构,通过引入多级真值图像作为监督,为超分辨率过程提供充足的图像细节恢复指引,进而减少超分辨率结果中细节损失和伪细节的出现。其次,为了便于构建级数可变、超分辨率倍数可变的分级监督网络,设计了一个轻量化的、超分辨率倍数可灵活调整的同构超分辨率模块(BSRC)。各级BSRC的网络结构基本相同,便于迁移网络权重,缩短训练时间。最后,针对分级网络超分辨率倍数一定时,网络级数及各级分辨率倍数有多种组合方式的问题,对比多种分级方式下的超分辨率结果,给出最佳网络分级方式。此外,构建了一个包含世界各地复杂细节地面场景的遥感图像数据集(RSSRD)。在该数据集和UCMerced、AID两个公开数据集上进行超分辨率实验,实验结果显示本文方法优于现有常用超分辨率方法。  
      关键词:遥感图像;深度学习;分级监督;超分辨率;多尺度特征提取;渐进式网络;参数共享;迁移学习   
      64
      |
      311
      |
      0
      <HTML>
      <网络PDF><Enhanced-PDF><Meta-XML>
      <引用本文> <批量引用> 64961753 false
      发布时间:2024-07-31

      卫星信息智能应用

    • [{"title":"多层级几何—语义融合的图神经网络地表异常检测框架","chapter":"1 引 言","content":"地表异常ESA(Earth Surface Anomalies)是指在地球表面发生的自然或人为的灾害异常事件。近年来,地表异常事件日渐频发,造成了重大的生命和财产损失,对人类福祉构成了严重威胁。因此,越来越多研究者意识到推动人道主义援助和灾害响应研究HADR(Humanitarian Assistance and Disaster Response)相关研究的重要性(曾超 等,2022;Mateo-Garcia等,2020;Gupta等,2019)。及时发现地表的异常情况对早期救援和减少损失具有重要意义(Weber等,2023;李敏 等,2015;王世新 等,2009;王桥,2022),基于卫星影像的深度学习方法为 解决HADR面临的挑战提供了一个检测规模更大、准确率更高的方案(Kuzin等,2021)。然而,现有标签数据的数量有限以及卫星影像包含复杂的几何、语义信息,导致现有方法的性能并不理想(Rui等,2021)。大部分HADR相关研究采用了灾后分析的范式,特别是xBD数据集(Gupta等,2019)的发布起到了重要推动作用。该数据集是目前规模最大、质量最高的公开高空间分辨率卫星影像数据集之一,用于检测与评估地表异常事件后的房屋损毁,为人们进行灾后分析提供了重要的数据支持。然而,尽管灾后分析是灾后工作的重中之重,对灾后统筹规划、复盘分析具有重要意义,但其滞后性以及对数据的可获得性要求导致其难以在地表异常的实时响应任务中发挥作用,第一时间降低地表异常带来的损失。对于实时响应与救援工作而言,如何尽早且准确地检测出地表异常相比灾后分析更为重要(Kuzin等,2021)。一些方法试图通过引入额外的时相或模态数据来提高准确率,如变化检测(Weber和Kané,2020)和多模态融合(Saha等,2022)等。然而,这类方法对数据可获得性提出了较高要求,并且需要花费额外时间对不同时相、不同模态的数据进行预处理,实际情况中方法不易实施,给地表异常实时响应带来诸多挑战。一种有效的方法是基于单张卫星影像的地表异常检测,结合先进的CNN(Convolutional Neural Network)等视觉方法单张卫星影像中提取出深层特征,然后对特征进行处理分析从而实现地表异常的检测(Gueguen等,2015;李智勇 等,2003)。 然而,由于标签数据有限,这些方法很容易出现过拟合问题,导致泛化性有限,难以应用于真实的地表异常检测任务。由于缺乏标签数据,一些研究人员从工业异常检测中使用无监督学习方法的成功案例得到启发,例如影像重建和度量学习(Tilon等,2020)。然而,卫星影像远比MVTec AD数据集(Bergmann等,2019)等工业异常图像数据复杂,使得无监督方法难以像学习简单背景下的工业图像样本一样对具有复杂信息的卫星影像建模,导致模型性能较差。针对上述问题,本文提出了一种多层级几何—语义融合的图神经网络地表异常检测框架,它利用单张卫星影像来进行地表异常检测,降低了对数据的要求,减少了预处理所需的时间。在本文的框架中,多层级是指在图表示生成阶段,按照低阶几何和高阶语义两个层级进行地理实体的提取,从而形成图表示。多层级可以充分利用低阶几何和高阶语义信息,从而实现更加精准的异常检测。框架分为两个阶段,第一阶段从卫星影像中按低阶几何和高阶语义两个层级提取地理实体及其关系以构建图表示,第二阶段使用一种多层级图注意力网络,从构建的图表示中挖掘地理实体关系信息,提取更具有判别性的特征,并基于此进行地表异常检测。同时,考虑到目前仍然缺乏大规模、多类别的地表异常数据集,且大多数现有相关数据集都专注于一类或几类地表异常,例如洪水、飓风和山体滑坡等(冯权泷 等,2022;Kyrkou和Theocharides,2020)。为了填补这方面的空白,本文基于现有的已发布的xBD(Gupta等,2019)、Multi3Net(Rudner等,2019)和Sichuan Landslide and Debrisflow(曾超 等,2022)数据集与人工目视解译构建了一个复合数据集ESAD,用于地表异常检测任务。","result":"讨论了地表异常事件对人类福祉的严重威胁,强调了早期发现地表异常对减少损失的重要性。介绍了基于卫星影像的深度学习方法在人道主义援助和灾害响应研究中的应用,以及现有方法面临的挑战,如标签数据有限和卫星影像的复杂性。提出了一种多层级几何—语义融合的图神经网络地表异常检测框架,利用单张卫星影像进行异常检测,降低对数据的要求,减少预处理时间。框架分为两个阶段:第一阶段提取地理实体及其关系构建图表示,第二阶段使用多层级图注意力网络挖掘地理实体关系信息,提取判别性特征进行异常检测。同时,构建了一个复合数据集ESAD,用于地表异常检测任务,填补了现有数据集的空白。","language":"zh"},{"title":"多层级几何—语义融合的图神经网络地表异常检测框架","chapter":"2 相关工作","content":"2.1 遥感影像地表异常检测自然灾害等地表异常事件日渐频发,引起了人们对地表异常检测和诊断的广泛关注。现有研究主要是基于卫星影像进行大尺度分析,根据研究的重点,可以将这些方法分为灾后分析和实时响应两大类。灾后分析旨在提取地表异常信息,对地表异常的程度、范围、趋势等方面进行分析、评估,以协助相关部门更好地进行统筹规划,改进现有问题,降低以后遇到此类地表异常事件的损失。其中变化检测和多模态融合两类方法最为普遍(Xu等,2019;Weber和Kané,2020;Kuzin等,2021;Lee等,2020;Yu 等,2022;Jiang 等,2020;谢卫莹 等,2024)。Xu等(2019)基于目标检测和统计数据构建房屋损毁评估数据集,并提出了一种双塔结构模型基于变化检测策略进行事后房屋损毁分析;Weber和Kané(2020)使用共享权重的CNN模型对灾害前后影像进行特征提取,以端到端的变化检测形式实现了房屋损毁评估。Kuzin等(2021)在实时遥感影像的基础上引入了额外模态数据,结合志愿者众包点数据训练灾害房屋损毁评估模型,提升了评估性能。针对部分地物在灾后的遥感特性,一些研究将光学影像、红外影像、SAR影像融合,实现了房屋损毁评估、火灾程度等灾后分析(Jiang等,2020;Yu等,2022)。然而,这两类灾后分析策略对数据的可获取性和预处理等方面有着较高要求,使得时间成本大大增加,难以应用于高时效性要求的任务中。本文研究重点主要聚焦于地表异常实时响应任务。与前者不同,地表异常实时响应在准确性的基础上更加注重时效性,旨在灾害发生后或灾害发生期间尽可能早地进行发现与诊断(Kyrkou和Theocharides,2020;Niu等,2022;Ji等,2018;Mateo-Garcia等,2020;Doshi等,2019;赖积保等,2022;刘启亮 等,2011;Xi等,2022)。Kyrkou和Theocharides(2020)提出了一种轻量级网络 EmergencyNet,将模型部署在无人机上实现了特定地表异常(如火灾、洪水等)的快速检测。Niu等(2022)提出了一种轻量级网络Reg-SA–UNet++,仅使用单张卫星影像实现了区域快速提取。Mateo-Garcia等(2020)在计算资源有限的卫星在轨条件下提取洪水区域,以实现更快的响应。然而,上述方法仅适用于有限几种或单一特定类型的地表异常检测,而在实际应用中,针对每种异常都训练一个模型会极大的影响响应效率,且难以克服模型泛化性问题。由于之前的研究工作存在如下几方面的问题:(1)预处理要求高,时间成本高;(2)地表异常检测任务注重时效性和准确性,现有方法无法兼顾时效性和准确性;(3)现有方法无法在资源有限的情况下实现多类地表异常是否发生的检测,本文旨在提出一种能够降低数据获取、处理等阶段时间成本,进行多种地表异常准确、快速检测的方法,用于地表异常实时响应任务。方法仅使用单张遥感影像进行地表异常检测,避免多时相、多模态数据获取、处理的时间消耗,并将多种地表异常类型统一划分为“异常”类别,通过二分类的方式进行地表异常快速检测,为后续具体的异常类型诊断、异常范围提取及异常分析等节省宝贵时间。同时,考虑到模型部署、推理的可行性与时效性,提出的方法引入轻量级图神经网络模型,能够以模块化的形式结合到现有轻量级网络中,以较小参数量的成本获得性能提升。2.2 图神经网络在卫星影像中的应用图神经网络GNN(Graph Neural Network)可以显式地获取节点、边和图之间的关系,可以有效地传播和聚合不同尺度的信息,这有利于捕获全局上下文和局部细节以学习高阶语义信息,例如语义关系和约束,从而能够比卷积神经网络相比卷积神经网络基于局部感受野的学习方式更利于挖掘图像的信息,实现对象级长距离特征的提取(Wu等,2021),这使得GNN可以更好地表达地理实体间的关系。这一优势使得一些研究人员将其应用到卫星影像的相关任务中,特别是高光谱影像的语义分割。Liu等(2021)使用超像素分割构建图,并结合CNN和图卷积网络GCN(Graph Convolutional Network)实现高精度土地覆盖分类。 在其他方法中(Jiang等,2022;Xi等,2022;Yang等,2022),采用不同的策略构建多尺度图表示,利用不同类型的GNN来提取不同尺度的语义信息,使得语义分割精度显着提高。最近,GNN也被引入到遥感图像分类任务中。Gao等(2021)使用GCN来提取森林、池塘等场景中的对象之间的关系辅助遥感图像分类。Liang等(2020)将目标检测得到的目标作为节点与GCN结合完成复杂场景识别任务。这些方法通过引入基于深度视觉特征与GNN结合,取得了较好的效果。受此启发,我们将GNN集成到我们的方法中来进行地表异常检测。这是使用GNN在地表异常领域的一次探索,可以为后续研究提供有益的参考与基准。","result":"首先概述了遥感影像地表异常检测的重要性,指出现有研究主要分为灾后分析和实时响应两大类。灾后分析关注提取异常信息,评估异常程度和范围,而实时响应则侧重于快速发现和诊断异常。现有方法存在预处理要求高、难以兼顾时效性和准确性、以及在资源有限情况下难以实现多类异常检测等问题。为解决这些问题,本文提出一种基于单张遥感影像的地表异常快速检测方法,通过二分类方式统一划分异常类型,降低数据获取和处理时间成本,提高检测效率。\n\n接着,章节讨论了图神经网络(GNN)在卫星影像中的应用。GNN能够显式获取节点、边和图之间的关系,有效传播和聚合不同尺度的信息,捕获全局上下文和局部细节,学习高阶语义信息。这使得GNN在高光谱影像语义分割、遥感图像分类等任务中取得了良好效果。例如,Liu等(2021)结合超像素分割和GCN实现高精度土地覆盖分类;Gao等(2021)使用GCN提取场景中对象间关系辅助遥感图像分类。这些研究表明,将GNN与深度视觉特征结合,可以提高遥感影像任务的性能。\n\n最后,章节指出本文将GNN集成到地表异常检测方法中,这是在该领域的一次探索,可以为后续研究提供参考和基准。通过引入轻量级GNN模型,可以在较小参数量成本下获得性能提升,实现地表异常的快速准确检测,满足实时响应任务的需求。","language":"zh"},{"title":"多层级几何—语义融合的图神经网络地表异常检测框架","chapter":"3 多层级几何—语义融合的图神经网络地表异常检测","content":"本文提出的多层级几何—语义融合的图神经网络地表异常检测框架如图1所示,由遥感影像图表示生成和地表异常检测两阶段组成。输入一张由RGB 3个波段组成的高空间分辨率卫星影像,第一阶段通过两个不同的分支提取不同层级的地理实体生成多层级图表示和分配矩阵。分配矩阵是根据不同层级地理实体的空间位置构建的不同层级图节点之间对应的关系矩阵,用于指导图神经网络学习推理过程中的特征融合。阶段二先利用多层级图注意力网络GAT(Graph Attention Network)来更新图表示并通过读出操作生成每个层级的图嵌入表示(Veličković等,2018)。读出操作是指通过聚合节点特征的方式来得到整张图的特征表示。常见的读出操作包括最大池化、全局平均池化等。然后通过基于注意力的特征融合模块将来自不同层级的图嵌入融合,生成输入图像的特征向量。最后通过多层感知机MLP (Multi-Layer Perception)处理该特征向量,生成二分类结果以完成地表异常检测。图1本文所提框架示意图Fig.1Overview of proposed framework3.1 符号表示在第一阶段,本文从输入图像中获取到了无向属性图。在这里,和分别表示节点、边和节点特征的集合。对于每个节点都有一个特征向量来表示其特征,因此,所有节点特征表示为,表示每个节点的特征数量,表示集合的基数。表示两个节点之间的边。图结构表示为对称邻接矩阵,其中对于节点 ,如果,则=1。节点的邻域定义为。3.2 多层级图表示生成为了充分发挥图的优势并利用图神经网络GNN提取卫星影像的特征,图表示的生成至关重要。现有方法大多采用简单线性迭代聚类SLIC(Simple Linear Iterative Clustering)算法(Achanta等,2012),将相对同质的像素聚合成超像素作为图节点,提高计算效率并降低噪声。然而,SLIC算法受参数设置影响而存在局限性,可能只能提取部分语义实体,例如将道路分为多个路段会使语义对象和关系很难构建。因此,我们引入了一个新的分支,它利用语义分割方法提取更完整的地理实体作为图节点,作为图表示的基础。通过两个不同层级的分支生成的图表示可以为下游任务提供更全面的图信息。(1)低阶图生成。低阶图表示局部语义。形象的说,低阶图中的节点可以被视为叶子,它们一起形成树,形成更高级别的语义表示。低阶图的构建涉及3个步骤:(1)超像素分割,(2)节点特征提取,(3)拓扑关系构建,如图1所示。首先,使用简单线性迭代聚类SLIC算法,其中为参数,获得超像素图,其中包含个超像素(表示低阶地理实体)作为节点。然后,我们将超像素叠加到输入图像上,并计算每个超像素所对应的所有像素特征向量的平均值,从而得到每个节点的特征向量,表示每个节点的特征数量。最后,本文以节点特征之间的欧氏距离为基础使用k近邻算法kNN(K-Nearest Neighbor)构建低阶图的初始拓扑关系,并删除超过距离阈值的边,从而优化图表示。对于每个节点,若满足 (1)式中,表示距离矩阵中第小的元素,则构建一条边。按照这个流程,将低阶图拓扑结构表示为一个二元邻接矩阵。生成的低阶图可以表示为。(2)高阶图生成。本文引入一个高阶分支来从图像中提取更高阶的语义实体,该分支的图生成流程与低阶图生成类似。首先,我们使用模型参数为的预训练语义分割模型来获得初步语义分割结果和特征图。然后,将分割图叠加到特征图上,并计算每个高阶地理实体内所有像素特征向量的平均值,以获得每个节点的特征向量,表示每个节点的特征数量。最后,使用区域邻接图RAG(Region Adjacency Graph)算法来生成高阶图表示。按照这个流程,将生成的高阶图的拓扑结构表示为二元邻接矩阵,高阶图可以表示为。(3)构建分配矩阵。从语义角度来看,卫星影像中的对象可以被视为多层级的地理实体,范围包括从高阶地理实体(例如森林)到低阶地理实体(例如树木)。层间和层内耦合基于这些实体之间的拓扑分布和拓扑关系而存在。受Jia等(2024)的启发,我们利用分配矩阵来构建基于低阶几何特征和高阶语义特征的联合表示。层内拓扑结构已经在之前的图生成阶段得到,即和。为了在下一阶段联合利用高阶图和低阶图,我们使用二元分配矩阵表示不同层级地理实体之间的拓扑关系,分配矩阵如图2所示。具体地,对于第个低阶地理实体和第个高阶地理实体,相应的分配规则为:如果第个低阶地理实体被包含于第个高阶地理实体,,否则,。图2分配矩阵示意图Fig.2Illustration of assignment matrix根据上述规则,每个低阶地理实体均被分配给有且仅有一个高阶地理实体。最终,对于每个输入影像,都可以生成一个分层级图。3.3 地表异常检测(1)分层级图注意力网络。在第二阶段利用来提取高阶语义信息进行地表异常检测。地理实体之间关系通常是多种多样的,所以不能假设所有的相邻节点在消息聚合过程中做出的贡献是相同的。因此,本文采用分层级图注意力网络GAT作为主干网络。具体来说,节点特征的更新规则可以表示为以下等式: (2) (3)式中,表示第层中节点的特征向量,表示sigmoid函数,表示节点的所有相邻节点,为注意力系数,和表示第层的权重矩阵和偏置项,是可学习的参数向量,‖代表拼接操作。考虑到节点特征的长度不同,采用两个具有不同输入层的GAT,即和来更新节点特征。按照,使用低阶图的节点嵌入和来初始化高阶图的节点特征,可以弥补由于高阶地理实体的大面积和均值操作而造成的低阶几何信息的损失,即 (4)式中,是中映射到节点的节点集。然后,将按照进行类似的处理。最后,利用读出操作和MLP从和中提取不同层级的特征向量和,其中。(2)基于注意力的特征融合。基于注意力的特征融合模块将特征向量和自适应地融合,得到一个特征向量作为输入卫星影像X的特征表示。最后,将被输入到多层感知机MLP中以进行二分类,根据分类结果判别是否存在地表异常。公式表达如下: (5) (6)式中,和表示根据等式(6)计算出的注意力权重,代表元素乘积。函数表示将长度为的向量映射到m的卷积层。","result":"提出的多层级几何—语义融合的图神经网络地表异常检测框架由遥感影像图表示生成和地表异常检测两阶段组成。输入高空间分辨率的RGB卫星影像,第一阶段通过两个分支提取不同层级的地理实体生成多层级图表示和分配矩阵,用于指导图神经网络学习推理过程中的特征融合。第二阶段利用多层级图注意力网络GAT更新图表示,通过读出操作生成每个层级的图嵌入表示,然后通过基于注意力的特征融合模块将不同层级的图嵌入融合,生成输入图像的特征向量。最后通过多层感知机MLP处理该特征向量,生成二分类结果以完成地表异常检测。\n\n在第一阶段,从输入图像中获取无向属性图,包括节点、边和节点特征的集合。使用SLIC算法将像素聚合成超像素作为图节点,提高计算效率并降低噪声。同时,引入语义分割方法提取更完整的地理实体作为图节点,生成低阶和高阶图表示。构建分配矩阵以表示不同层级地理实体之间的拓扑关系。\n\n在第二阶段,采用分层级图注意力网络GAT作为主干网络,更新节点特征,考虑地理实体之间关系的多样性。使用两个具有不同输入层的GAT来更新低阶和高阶图的节点特征,弥补由于高阶地理实体的大面积和均值操作而造成的低阶几何信息的损失。然后,利用读出操作和MLP从不同层级的节点特征中提取特征向量。\n\n基于注意力的特征融合模块将来自不同层级的特征向量自适应地融合,得到输入卫星影像的特征表示。最后,将特征向量输入到多层感知机MLP中进行二分类,根据分类结果判别是否存在地表异常。","language":"zh"},{"title":"多层级几何—语义融合的图神经网络地表异常检测框架","chapter":"4 实 验","content":"4.1 数据集现有地表异常数据集主要侧重于单类别异常的检测、诊断和灾后分析,并不能够满足本研究的需求。因此,提出了1个由3个公开可分发的数据集构成的复合数据集ESAD,以填补大规模多类别地表异常数据集的空白,示例如图3所示。具体来讲,ESAD由以下3个数据集组成:xBD(Gupta等,2019),Multi3Net(Rudner等,2019)和Sichuan Landslide and Debrisflow(曾超等,2022)。其中,xBD数据集是迄今为止第一个建筑损坏评估数据集,是目前含标签的高分辨率卫星图像中规模最大、质量最高的公共数据集之一,提供各种灾害事件的灾前和灾后卫星影像,包含共11034对灾后前—后影像对,图像尺寸为1024×1024,分辨率为0.5 m。Multi3Net数据集包含在德克萨斯州和休斯顿两个相邻的非重叠地区的分辨率为0.5 m的930张中分辨率卫星影像,图像大小为2263×1973,而Sichuan Landslide and Debrisflow则包含107张典型滑坡和泥石流灾害的图像(分辨率为0.2—0.9 m)、标签数据和描述文件,涉及地震滑坡、降雨滑坡、沟壑泥石流和边坡泥石流4种类型。在数据整合的基础上,通过目视判读的方式对数据集进行筛选和整合,为每张图片分配一个图像级的标签,然后通过裁剪和缩放来将图像尺寸调整为1024×1024,并确保样本的分辨率在0.2—1 m。最后将筛选整合好的数据根据地表异常的类型按照6∶2∶2的比例分为训练集、测试集和验证集。ESAD的详细信息如表1所示。图3ESAD数据集示例Fig.3Examples of ESAD Dataset表1ESAD数据集统计数据Table 1Statistics of ESAD4.2 基线方法和实现细节在实验中,本文综合效率、性能等方面因素,在第一阶段使用了SLIC算法进行超像素分割。经过多种参数设置尝试,并考虑到遥感影像空间分辨率情况,本文将SLIC算法中超像素大小设置为2500像素,最大超像素个数设置为1000,紧凑度为设定为10,最大迭代次数设定为10,其他参数均为默认参数设置。本文在第一阶段采用基于The Deepglobe Land Cover Classification Challenge数据集预训练的HRNetV2作为提取高阶语义特征的语义分割模型。具体分割类型为城市用地、农业用地、牧场、林地、水域、裸地、未知等7种类型。为了验证所提出方法的性能,本文使用ResNet-50、MobileNetV3和ViT-B/32作为基于视觉特征的基线方法。在图分类基线方法方面,HGP-SL(Zhang等,2019)是图分类领域目前最先进的方法之一,在Proteins等多个图分类数据集上取得了排名第一的精度,而HACT-Net(Pati等,2022)是医学图像分析中的一种先进方法,也使用分层级图表示策略。此外,为了验证两个分支结果特征融合的必要性和有效性,GAT-Low和GAT-High仅使用各自分支生成的特征向量。本文使用Concat-GAT评估基于注意力的特征融合模块,该模块仅使用拼接操作来获得图级别的嵌入。在本文中训练每个模型时都采用了相同的训练参数,具体参数如下:初始学习率为0.0001,迭代次数为200,优化器为Adam,损失函数为BCELoss。所有实验均在Ubuntu 18.04系统环境下基于PyTorch框架下进行,训练所用GPU为NVIDIA 3090 24 G。4.3 实验结果各类方法的定量结果如表2、表3所示,其中总体准确率、召回率、平均推理时间和参数量用于评估综合性能。如表2所示,本文提出的方法总体精度和召回率与ResNet-50相比基本相同,比MobileNetV3分别提高了3.06%和3.00%,仅比ViT-B/32低2.25%和2.32%。在推理速度上,本文提出的方法与基于视觉特征的方法基本持平。但在参数量上本文方法有着明显优势。与基于视觉特征的方法相比,本文模型推理速度基本相同,而参数量却远小于ResNet-50和ViT-B/32,甚至优于专为有限资源条件设计的MobileNetV3。总的来说,本文提出的框架在总体精度、召回率和推理速度上的表现与基于视觉特征的方法基本相近,但在参数量方面有显著提升。除此之外,本文模型在收敛速度等方面也有着较为明显的优势。与基于GNN的方法的定量对比结果如表3所示,HGP-SL方法虽然是图分类任务中最优的算法之一,但仅能使用单一层级的图表示进行学习,导致效果相对较差。且HGP-SL-Low精度显著高于HGP-SL-High,这表明尽管高阶图节点特征包含了更多高阶语义信息,但其生成方式使得其节点更少,在该过程中存在信息丢失,导致性能降低。相比其他基于GNN的方法,在推理速度和参数量相近的情况下,本文提出的框架取得了显着的性能提升,准确率和召回率分别提高了3.99%和3.1%,而参数量没有显著增加。总体而言,我们的方法在准确性和效率之间取得了更好的平衡,使其更适合地表异常检测,同时为下游任务节省了宝贵的时间和资源。表2与视觉模型的定量对比结果Table 2Quantitative comparison results with visual models表3与图方法的定量对比结果Table 3Quantitative comparison results with GNN-based methods除此之外,本文还对提出的模型进行了消融实验,以验证提出的框架各模块的有效性,实验结果如表4所示。GAT-Low (RGB)和GAT-Low(Pretrained)分别表示节点特征来自于原始RGB图像和使用预训练CNN提取后的特征图,结果对比表明,在低阶图生成阶段,使用预训练的 ResNet效果好于仅使用RGB图像,深度特征表达以及更长的特征向量赋予了图节点更多可学习的信息。Concat-GAT是指将第一阶段生成的低阶图表达和高阶图表达经过GAT后生成的特征向量只进行简单的拼接操作输入多层感知机进行分类。w/o AM(Assignment Matrix)是指不使用分配矩阵将高阶图表示和低阶图表示进行聚合。Concat-GAT和提出的方法在不使用分配矩阵AM时性能有所下降,表明通过AM将低阶图信息聚合到高阶图节点中,能够一定程度上为高阶图补充低阶几何等细节信息,防止信息丢失,提升模型性能。GAT-Low、GAT-High与提出的方法的结果对比表明,融合几何、语义信息得到的效果显著好于仅使用其中一个分支获取的信息所得到的效果。以图4为例,通过分配矩阵AM,可以为图4(c)中的语义分割区域提供内部的几何信息,以城市用地为例,通过分配矩阵,可以为使大面积的城市用地区域提供边缘纹理等细节信息,以及组成这片城市用地的超像素数量,补充了高阶图表示中的低阶信息缺失。由于高阶图的节点对应的覆盖范围往往很大,所以通过读出操作聚合节点特征时,大量像素特征形成的一个特征向量会导致细节信息的丢失,因此需要补充低阶信息。高阶特征在语义层次上进行了抽象,但是低阶特征在表达节点本身几何属性时也有着重要作用。Concat-GAT和提出的方法结果对比表明,基于注意力机制自适应融合高阶图和低阶图表达,效果比传统仅使用特征拼接方法更好,能够更好地学习不同层级特征对地表异常判断的影响从而做出更优的判断。注: AM表示分配矩阵Assignment matrix。表4消融实验Table 4Ablation studies of proposed method图4定性分析示例Fig.4Examples of qualitative analysis","result":"介绍了多层级几何—语义融合的图神经网络地表异常检测框架的实验部分。首先,作者提出了一个复合数据集ESAD,由xBD、Multi3Net和Sichuan Landslide and Debrisflow三个公开可分发的数据集组成,以满足大规模多类别地表异常数据集的需求。ESAD数据集经过筛选和整合,图像尺寸统一调整为1024×1024,分辨率在0.2—1 m之间,并按照6∶2∶2的比例分为训练集、测试集和验证集。\n\n在基线方法和实现细节方面,作者使用了SLIC算法进行超像素分割,并基于The Deepglobe Land Cover Classification Challenge数据集预训练的HRNetV2作为提取高阶语义特征的语义分割模型。同时,选用了ResNet-50、MobileNetV3和ViT-B/32作为基于视觉特征的基线方法,并对比了HGP-SL和HACT-Net两种图分类基线方法。实验中,所有模型采用相同的训练参数,包括初始学习率、迭代次数、优化器和损失函数。\n\n实验结果表明,所提出的方法在总体精度、召回率和推理速度上与基于视觉特征的方法基本相近,但在参数量方面有显著提升。与基于GNN的方法相比,在推理速度和参数量相近的情况下,本文提出的框架取得了显着的性能提升。此外,消融实验验证了所提出框架各模块的有效性,如使用预训练的ResNet提取特征、通过分配矩阵AM聚合低阶图信息到高阶图节点中,以及基于注意力机制自适应融合高阶图和低阶图表达等。\n\n定性分析示例如图4所示,展示了通过分配矩阵AM为语义分割区域提供内部的几何信息,补充了高阶图表示中的低阶信息缺失。总体而言,本文提出的框架在准确性和效率之间取得了更好的平衡,使其更适合地表异常检测,同时为下游任务节省了宝贵的时间和资源。","language":"zh"},{"title":"多层级几何—语义融合的图神经网络地表异常检测框架","chapter":"5 结 论","content":"本文提出的多层级几何—语义融合的图神经网络地表异常检测框架,基于图节点信息传递、聚合与注意力机制从图中进一步挖掘、理解卫星影像中复杂的语义信息,便于准确地检测地表异常。考虑到现有地表异常检测基准数据集的缺乏,本文基于现有公开可分发数据集构建了一个复合数据集ESAD,用于基于单张卫星影像开展地表异常检测任务。大量实验表明,本文方法在地表异常检测任务中取得了优异的性能,在准确率、召回率与推理时间方面优于许多基线方法,可精确、有效地开展地表异常检测任务。在未来的工作中,我们将进一步探索模型框架以获得更好的性能,并将我们的方法扩展应用到在轨实时地表异常检测任务。","result":"提出的框架通过图神经网络融合几何和语义信息,利用节点信息传递和注意力机制,有效挖掘卫星影像中的复杂语义信息,实现地表异常的准确检测。构建了复合数据集ESAD,解决了基准数据集不足的问题。实验结果表明,该方法在准确率、召回率和推理时间上优于多个基线方法。未来工作将优化模型框架,扩展至实时地表异常检测任务。","language":"zh"}]
      高智,胡傲涵,陈泊安,路遥,葛家辰
      2024, 28(7): 1760-1770. DOI: 10.11834/jrs.20243301
      多层级几何—语义融合的图神经网络地表异常检测框架
      摘要:近年来突发性地表异常ESA(Earth Surface Anomalies)事件频发且呈上升趋势,给人类的生命、财产安全带来了巨大威胁,如何及时准确地发现地表异常事件对后续救援与灾害响应具有重要意义。一些研究人员利用卫星影像开展大尺度地表异常发现与监测,并开发、运用了先进的深度学习方法。然而,由于标签数据不足和卫星影像中几何、语义信息十分复杂,现阶段的地表异常检测方法的表现往往不能达到很好的效果。针对上述问题,本文提出了一个多层级几何—语义融合的图神经网络GNN(Graph Neural Network)框架,以实现高精度地表异常快速发现。具体而言,本文提出的方法先利用两个不同的分支从输入的卫星影像中提取不同层级的地理实体并构建图表示,然后通过分配矩阵实现图的联合表达。此后,构建了分层图注意力网络GAT(Graph Attention Network),基于图节点信息传递、聚合与注意力机制从图中进一步挖掘卫星影像中复杂的几何、语义信息,用于准确地检测地表异常。考虑到现有大规模多类地表异常检测基准数据集的缺乏,我们基于现有公开可分发数据集构建了ESAD数据集,用于基于单张卫星影像的地表异常检测任务。大量实验表明,提出的方法在地表异常检测任务中取得了优异的性能,在准确率、召回率与推理时间方面优于许多基线方法,可精确、有效地开展地表异常检测任务。  
      关键词:遥感;地表异常;多层级融合;图神经网络;快速检测;注意力机制;灾害响应;卫星影像   
      65
      |
      320
      |
      0
      <HTML>
      <网络PDF><Enhanced-PDF><Meta-XML>
      <引用本文> <批量引用> 64961749 false
      发布时间:2024-07-31
    • [{"title":"基于实例对比学习的遥感建筑物变化检测域适应算法","chapter":"1 引言","content":"近年来随着遥感技术的飞速发展,遥感卫星的成像能力不断提高,遥感图像的质量飞速提升,目前光学遥感影像空间分辨率已经可以达到0.3 m GSD。因此,借助遥感图像可以更加清晰准确的辨别地表上的物体。目前遥感图像智能解译已经得到了广泛应用,如遥感图像目标检测(姚群力 等,2019;史文旭 等,2020;王海峰 等,2022;薛成宬 等,2023)、遥感图像语义分割(Su等,2022;Cheng和Lei,2023)、遥感图像变化检测(刘宣广 等,2024;刘英 等,2022;刘红超和张磊,2020)等。其中遥感图像变化检测中的建筑物变化检测是一个重要方向。遥感图像建筑物变化检测是对同一地理区域、不同时间获取的遥感影像自动地进行地面建筑物变化检测的技术(柳思聪 等,2023)。近年来,深度学习方法在建筑物变化检测中得到了广泛的应用,此类方法可以从原始数据中自动提取层次结构的、非线性的特征,克服了传统建筑物变化检测方法的一些局限性,表现出优异的性能。根据双时相图像的深度特征提取过程,基于深度学习的建筑物变化检测框架可以概括为3种类型:单流、双流和多模型集成(Shi等,2020)。由于双流孪生网络具有更简单的结构和更强的性能,受到更多的关注。在双流孪生网络中,可以将提取特征所使用的深度模型分为基于卷积神经网络的模型、基于循环神经网络的模型、基于Transformer的模型等。基于卷积神经网络的算法有全卷积早融合模型FC-EF(Fully Convolutional Early Fusion model)(Daudt等,2018)、全卷积差异模型FC-diff(Fully Convolutional Difference model)(Daudt等,2018)、孪生U型变化检测网络SNUNet-CD(Siamese and U-shaped Network for Change Detection)(Fang等,2022)等,这些方法采用卷积模型提取双时相特征,可以保留邻域的联系和空间的局部特点,由于其共享卷积核的结构,可以处理尺寸较大的图像;基于循环神经网络的算法有深度孪生卷积多层递归神经网络SiamCRNN(deep Siamese Convolutional Multiple-Layers Recurrent Neural Network)(Chen等,2020)、基于递归残差的森林变化检测U型网络FCD‑R2U‑net(Forest change detection in bi-temporal satellite images using the recurrent residual-based U-net)(Khankeshizadeh等,2022)等,这些方法在捕获序列关系方面非常有效,可以有效建立双时图像之间的变化关系;基于Transformer的算法有双时相图像BIT Transformer(Bitemporal Image Transformer)(Chen等,2021)、变化检测Transformer模型Changeformer(Change detection Transformer)(Bandara和Patel,2022)等,这些方法通过多头注意力机制提取原始遥感图像中具有上下文关联性的特征表示,最近几年在遥感图像处理领域被广泛运用。除了关注提取特征的深度模型的结构之外,另一个在双流孪生建筑物变化检测算法中被关注的点是变化特征的融合方式。有一些工作通过改进多尺度特征的融合方式来提升变化检测的性能。时空注意力网络STANet(Spatial-Temporal Attention-Based Network)(Chen和Shi,2020)算法在编码器网络之后增加一个变化检测自注意力模块,计算变化检测输入图像中任意两个像素之间的时空关系,并针对建筑目标的尺度多样性,提出不同尺度的自注意力机制,从而生成更有效的变化特征。特征限制变化检测网络FCCDN(Feature Constraint Change Detection Network)(Chen等,2022)算法提出了一种基于密集连接的简单而有效的深度特征融合模块DFM(Deep Feature Fusion Module),使用求差分支与求和分支,求和分支用于增强边缘信息,求差分支用于生成变化区域,每个分支都由两个密集连接的共享权重的流构建,以此减少特征错位。双向自注意力网络DSANet(Dual Self-Attention Network)(Huang等,2019)提出了一种基于深度度量学习的遥感变化检测方法,该方法使用双重注意模块来改进特征辨别力以更稳健地区分变化。然而,以上大多数现有的变化检测方法都是使用全监督深度学习模型(Chen等,2021,2022;Fang等,2022;Asokan和Anitha,2019),这需要大量带标签的遥感数据来进行准确的预测。而手动标注建筑物变化检测标签是非常耗时耗力的,因为这需要专业的人员逐像素地对两幅影像进行对比标注。并且由于地点不同、季节不同、成像系统不同等原因,同一地物在不同的图像中可能呈现出不同的样貌,这导致在原场景训练的模型迁移至新场景时性能严重下降。无监督域适应技术是缓解这个问题的有效手段。当前无监督域适应算法可以主要分为基于对抗训练的域适应和基于自训练的域适应(Liu等,2022)。基于对抗训练的域适应算法借鉴对抗生成网络(Goodfellow等,2020)的思想,在模型训练的过程中使用鉴别器鉴别输入特征来自于源域还是目标域。输入级对抗训练域适应算法,使用傅里叶变换(Yang和Soatto,2020)或者深度学习方法(陈淮源,2022)对源域数据和目标域数据进行风格匹配;特征级对抗训练域适应算法对编码器的特征进行鉴别分类,并采用梯度翻转层(Ganin和Lempitsky,2015)驱使编码器提取域不变特征;输出级对抗训练域适应算法,在模型的输出层使用鉴别器和熵最小化策略(Tsai等,2018;Vu等,2019)使源域和目标域具有相似的预测值。对抗训练的方法具有想法直观易于理解的优点,但是在鲁棒性和模型训练的稳定性上较差。基于自训练的域适应方法使用源域数据训练模型并对目标域数据生成伪标签(Wang等,2021),然后对模型重新训练以提升模型在目标域上的性能。在模型训练上,通过基于类别的域混合将源域正样本混合至目标域图像上(Tranheden等,2021;Olsson等,2021),同时根据类别的出现频率确定其在训练过程中的采样频率(Hoyer等,2022a),以此让模型学习目标域的背景信息和平衡多个类别之间的关系。还有一些研究在域适应任务中使用掩码图像一致性方法(Hoyer,2023)和层次性伪标签融合策略(Arnaudo等,2023)提升模型对输入数据上下文的表示能力,此类方法也是适用于正样本类别数量较多的场景。此外,还有一些算法将对比学习引入至无监督域适应任务(Chen等,2023;Vayyat等,2022),鼓励模型学习具有类内紧凑性和类间可分离性的区分像素特征,显式地促进区分性特征学习。虽然目前的域适应算法已经可以在建筑物变化检测任务上取得较好的效果,但仍然存在以下3个问题:(1)问题1。基于类别的域混合策略适用于类别数量较多的情况下,在建筑物变化检测任务中,仅存在“变化”这一个类别的正样本,在使用基于类别的域混合时,模型仅简单学习混合正样本的边缘区域即可将其区分出来,使模型无法有效学习;(2)问题2。当前基于像素的对比学习方法,由于目标域的标签不可知,由模型生成的伪标签必然具有分类错误的样本,导致在对比训练过程中易引入较大的噪声信息;(3)问题3。高置信度阈值过滤生成的伪标签未利用教师模型的低置信度预测结果,使得目标域的大量区域被忽略,造成样本的不充分利用。针对以上问题,本文提出了针对跨域建筑物变化检测任务的实例级对比学习域适应算法ICDA-CD(Instance Contrast learning Domain Adaptation for Change Detection)。主要贡献点有3个:区域级域混合、实例级对比学习和伪标签质量估计加权损失。针对上述问题1,本文提出区域级域混合,将含有源域建筑物的数据与含有目标域建筑物的数据同时混合在一个样本上,混合形成的混合域样本可以使模型更加关注背景区域的域不变特征;针对上述问题2,根据像素级对比学习存在的缺点,本文提出实例级对比学习,将其应用在建筑物变化检测模型的编码器和解码器中。在编码器中,拉开变化建筑物区域双时相特征距离,在解码器中,拉近各个变化建筑物区域特征之间的距离,从而降低模型对源域和目标域变化建筑物正样本特征表示的差异;针对上述问题3,本文提出伪标签质量估计,通过教师模型的预测值得出各个像素位置的伪标签质量估计,然后对损失进行加权,这可以使得低置信度的标签可以被有效利用,不浪费教师模型的预测结果。本文对所提出来的方法ICDA-CD进行了域迁移实验,并与其他先进算法进行了对比分析和消融实验。","result":"介绍了遥感技术的发展及其在建筑物变化检测中的应用,重点讨论了深度学习在该领域的应用和进展。文中首先概述了遥感图像智能解译的广泛应用,包括目标检测、语义分割和变化检测等。随后,详细讨论了基于深度学习的建筑物变化检测框架,包括单流、双流和多模型集成三种类型,并特别强调了双流孪生网络的优势。文中还介绍了不同深度模型,如基于卷积神经网络、循环神经网络和Transformer模型的算法,并探讨了变化特征融合方式的改进对提升性能的影响。\n\n进一步,章节指出了现有全监督深度学习模型在建筑物变化检测中的局限性,包括对大量带标签数据的依赖和模型迁移至新场景时性能下降的问题。为解决这些问题,提出了无监督域适应技术,包括基于对抗训练和自训练的域适应方法,并分析了这些方法的优缺点。\n\n最后,针对现有方法的不足,本文提出了一种新的实例级对比学习域适应算法ICDA-CD,该算法通过区域级域混合、实例级对比学习和伪标签质量估计加权损失三个主要贡献点来提高跨域建筑物变化检测的性能。文中还对ICDA-CD进行了域迁移实验,并与其他算法进行了对比分析和消融实验,验证了其有效性。","language":"zh"},{"title":"基于实例对比学习的遥感建筑物变化检测域适应算法","chapter":"2 研究方法","content":"本文所构建的实例级对比学习域适应遥感变化检测模型ICDA-CD(Instance Contrast learning Domain Adaptation for Change Detection),采用了基于学生—教师模型的自训练域适应框架,整体结构如图1所示。图1实例级对比学习域适应遥感变化检测算法整体结构Fig. 1Overall structure of the domain adaptation change detection algorithm根据在半监督和无监督域适应中广泛应用的“强弱一致性”(Li等,2020)原则,教师模型的输入为不经过数据增强的目标域数据,以生成更准确的伪标签;学生模型中,本文提出将目标域数据与源域数据进行区域级域混合及强数据增强之后的结果作为学生模型的输入,以此使模型同时学习源域数据和目标域数据,增大训练数据的多样性。训练过程中,本文提出在学生模型的编码器和解码器中分别采用实例级对比学习。首先根据源域标签和教师模型生成的目标域伪标签混合成新的标签,然后根据标签中正样本的连通性,将每一个连通域内的所有空间位置的样本视为一个实例。正样本表示的是变化类别,所以在孪生编码器中正样本对应位置的特征属于不同的类别,因此将编码器中的正样本特征通过实例对比学习拉远。同时在解码器中显式地拉近同一个训练批次中源域和目标域的正样本实例特征。本文提出的实例级对比学习方式相比于一般的像素级对比学习,可以大大减少训练过程中的噪声,同时可以引导模型提取域不变的特征,提升模型的跨域性能。在损失计算的过程中,本文提出对教师模型输出的伪标签进行质量估计,并对混合域样本的损失进行加权,相比于传统的高置信度阈值的伪标签生成方式可以更加充分得利用目标域样本数据。2.1 区域级域混合域混合是提升无监督域适应性能的常用方法,在语义分割任务中,通常存在多种类别,且各个类别之间通常存在一定的语义关系,从而造成语义的高低层之差,例如汽车类别要高于道路类别,因为汽车可能会遮挡道路,但道路不会遮挡汽车。将源域的汽车复制出来,粘贴到目标域图像的道路类别之上,从而形成了混合两个域的新图像。由于类别众多,即使粘贴之后边界明显,模型仍然可以学习域混合之下的类别信息,所以这种实例级别的域混合方式对于语义分割十分有效,可以提升模型在目标域的性能。但是,在遥感变化检测中仅有“变化”这一个类别,当将源域的变化物体复制粘贴到目标域的图像上时,粘贴边界较为明显时,模型可以很容易的进行二分类,从而无法使域混合发挥作用。图2为建筑物变化检测中的源域和目标域在实例级进行混合的示例。可见:复制粘贴之后的图像边缘较为明显;同时,在变化检测中通常正样本的数量占比较小。这两个原因导致在变化检测任务中实例级别的域混合技术无法发挥其作用。图2实例级域混合示例Fig. 2Example of the instance level domain mix通过CutMix区域级别的域混合,构建混合域样本,再送入模型进行训练。通过这种方式使模型在同一个样本中同时学习源域与目标域的特征,从而学习到域不变特征,提升模型在目标域的泛化性能。图3为本文所采用的区域级混合示例图,首先使用教师模型推理得到目标域图像的伪标签,然后随机裁切目标域图像及伪标签的一个矩形区域,替换源域图像及真值标签的对应位置,从而生成了混合域的图像及标签。此过程可以表示如下: (1) (2)式中,x表示前后时相的样本;下标中:m表示混合域,s表示源域,t表示目标域;表示一个随机的矩形区域;表示目标域样本的伪标签。在计算x和计算label时使用同一个,以保证图像和标签可以对应上。图3区域级域混合示例Fig. 3Example of the regional level domain mix2.2 实例对比学习遥感图像变化检测域适应任务的目标是使模型在目标域上具有更好的性能,这需要减小源域特征和目标域特征之间的距离,才能使模型具有更好的泛化性能。而对比学习可以缩小同类特征的距离,扩大不同类别特征之间的距离,因此可以借助对比学习来提升模型跨域变化检测的性能。在无监督域适应任务中,由于目标域没有真实标签,伪标签是由教师模型生成的,会产生大量错误的伪标签,这导致在进行像素级的对比学习时出现大量错误的正负样本对,这些噪声会影响模型的有效学习。为降低像素级对比学习过程中噪声的影响,本文提出实例级对比学习,将一个实例内部所有位置的特征进行平均,以降低离群噪声的影响。本文将实例级对比学习分别应用在编码器阶段和解码器阶段。在编码器中,由于变化检测模型采用孪生网络提取双时相特征,模型对相同类别的特征表示具有较大的相似性,对不同类别的表示具有较小的相似性。在变化检测中,发生变化的区域(正样本)在前后时相的图像中是属于不同的类别,则前后时相的此区域的特征应该具有较小的相似性。基于这种观察,本文在编码器中采用了实例级对比学习,扩大前后时相中同一区域不同类别的特征距离。编码器阶段的实例对比学习EIC(Encoder Instance Contrast learning)的具体步骤如图4所示。首先,将前时相图像和后时相图像分别输入编码器,得到编码器深层的高维特征,因为深层特征具有较多语义信息,所以将其作为实例对比学习的特征来源;同时根据连通性将变化真值标签分为多个连通域,每一个连通域表示一个实例掩码;接着使用实例掩码与双时相高维特征提取该实例区域在前后时相中的特征表示;为提升特征距离的计算效率,使用如图6所示的结构,将这一对特征都降维至128维;最后,计算每一对特征的对比损失,扩大这对特征之间的距离。对比损失的计算如式(4): (3) (4)式中,D表示余弦距离,i表示第i个实例,n表示所有实例的个数,r表示实例的特征表示,pre表示前时相,post表示后时相,表示L2距离,∈[0,2]。图4编码器阶段的对比学习Fig. 4Contrast learning in the encoder stage图5解码器阶段的对比学习Fig. 5Contrast learning in the decoder stage图6实例特征降维结构Fig. 6Instance feature dimensionality reduction structure在解码器中,输入编码器的前后时相多尺度特征,经过自上而下的多尺度融合之后,得到多个尺度的变化特征。此时不再有前时相特征和后时相特征之分,它们一起融合成为了变化特征。对于源域数据的变化特征和目标域数据的变化特征应该具有相似的表示,本文通过实例级对比学习显式地拉近源域变化实例特征与目标域变化实例特征,从而提高模型对源域和目标域的变化表示的一致性。解码器阶段的实例对比学习DIC(Decoder Instance Contrast learning)的具体步骤如图5所示。首先,将前后时相图像输入至孪生编码器,再经过变化特征解码器,得到解码器最后两个阶段的变化特征;同时,与编码器的变化标签实例化相同,根据连通域将变化标签分为多个实例掩码;接着使用实例掩码与变化特征提取该实例的变化特征表示;为提升特征距离的计算效率,使用如图6所示的结构,将特征降维至128维;最后,计算同一个训练批次中每一个变化实例与其他所有变化实例之间的对比损失,拉近源域变化实例特征和目标域变化实例特征之间的距离,引导模型提取域不变特征。解码器中对比损失的计算方式如式(5)所示: (5)式中,n表示所有实例的个数,r表示实例变化特征,距离D的计算方式见式(3),。综上所述,在训练过程中采用的实例对比损失的计算公式如下: (6)图6为在提取实例特征时采用的降维结构,为了防止对比学习的过程中出现“模型坍塌”现象,在降维结构中未使用非线性操作,保持降维之后的特征与编码器或解码器输出的特征为线性关系。2.3 伪标签质量估计为了充分利用教师模型的预测结果,本文采用固定0.5阈值置信度将预测结果二值化,不忽略任何伪标签,并将教师模型的预测结果置信度作为伪标签的质量估计PLQE(Pseudo Label Quality Estimation)。如图7(a)所示,传统的伪标签生成采用高置信度阈值,造成伪标签中存在忽略样本,无法利用到低置信度阈值的样本,如果仅降低阈值,则会引入更多的噪声标签;同时二值化标签将不同置信度同等对待,如0.8和0.9转为二值化标签后为1和1,这减少了伪标签中的信息。本文提出直接使用0.5置信度阈值对目标域样本的预测结果二值化得到伪标签,如图6(b)所示:将预测结果中置信度>0.5的像素视为正样本,如图中蓝色位置;置信度<0.5的像素视为负样本,如图中黄色位置;不产生忽略标签,所有像素均可参与训练。得到之后,再根据式(2)得到混合域的标签。由于采用了低置信度阈值,在目标域样本的伪标签中有大量噪声。为了解决这个问题,本文根据教师模型的在目标域样本上的预测结果生成其伪标签质量估计,其转换方式如式(7),置信度越接近于0.5则其质量越差,计算公式如下: (7) (8)式中,与式(1)和(2)中的相同,以保证混合矩形位置可以对应,表示源域标签的质量,其为一个全一矩阵,表示源域的标签的质量都是最高的。得到学生模型的预测结果之后,与混合标签计算二元交叉熵损失,之后将标签质量加权至BCE损失上,标签质量越高,损失权重越大。可表示如式(9)至(10)。 (9) (10)式中,表示学生模型对混合样本的预测结果,表示逐像素点加权运算。通过这种方式,利用了目标域样本中包括低置信度预测在内的所有像素,同时对目标域伪标签的质量进行了估计,使得模型更加关注更高质量的伪标签。综上所述,在域适应阶段模型的总损失计算公式如下: (11)","result":"提出了一种基于实例对比学习的遥感建筑物变化检测域适应算法ICDA-CD,采用学生—教师模型的自训练域适应框架。算法利用“强弱一致性”原则,教师模型输入目标域数据生成伪标签,学生模型输入经过区域级域混合及数据增强的目标域和源域数据,以学习两域数据并增加训练数据多样性。实例级对比学习在编码器和解码器中应用,通过混合源域标签和教师模型生成的伪标签,将连通域内样本视为实例,拉远正样本特征,拉近源域和目标域正样本实例特征,减少训练噪声,提取域不变特征,提升跨域性能。区域级域混合通过CutMix方法构建混合域样本,使模型学习源域与目标域特征,提升泛化性能。实例对比学习在编码器阶段扩大同一区域不同类别特征距离,在解码器阶段拉近源域和目标域变化实例特征,提高变化表示一致性。为充分利用教师模型预测结果,采用固定0.5阈值置信度二值化预测结果得到伪标签,并通过伪标签质量估计对损失进行加权,使模型更关注高质量伪标签。最终,模型的总损失综合考虑了实例对比损失和伪标签质量加权的二元交叉熵损失。","language":"zh"},{"title":"基于实例对比学习的遥感建筑物变化检测域适应算法","chapter":"3 结果与分析","content":"为了评估本文所提出的基于实例对比学习的遥感域适应变化检测模型的性能表现,本文将本文方法与目前先进的DACS、DAFormer、HRDA等域适应算法进行了对比。3.1 数据集及评价指标本文采用LEVIR-CD(Chen等,2020)和S2Looking(Shen等,2021)数据集分别进行了2组实验:(1)将LEVIR-CD作为源域数据,S2looking作为目标域数据;(2)将S2looking作为源域数据,LEVIR-CD作为目标域数据。训练中源域数据的图像和标签都可以使用,不使用目标域真值标签。图7高置信度伪标签生成与本文伪标签生成方法对比Fig. 7High-confidence pseudo label generation versus this proposed pseudo label generation methodLEVIR-CD数据集包括来自美国德克萨斯州几个城市的20个不同地区的遥感图像,图像数据的捕获时间从2002年—2018年不等,分辨率为0.5 m GSD。此数据集仅关注建筑物单个类别的变化情况,图像大小为1024×1024像素,共计637对RGB图像。S2Looking是一个建筑变化检测数据集,包含在各种偏离最低点的角度拍摄的大规模侧视卫星图像。该数据集由2017年—2020年从高分、SuperView和北京二号收集的5000对超高分辨率配准图像组成。数据集包含了来自世界各地的各种场景,包括村庄、农场、别墅、零售中心和工业区等。表1为LEVIR-CD和S2Looking数据集的主要信息概况。表1本文采用数据集概况Table 1Overview of the data sets used in this paper虽然两个数据集都是针对建筑物变化检测,但是二者在光照强度、图像分辨率、成像角度等方面存在明显差异,图8展示了两个数据集中的部分建筑物图片。可见:LEVIR-CD中的建筑物较为单一,主要为美国乡村地区的居民住宅,在外貌上各个建筑物有较大的相似性;S2Looking中的建筑物的在外观、形状、色彩、分辨率上有更多的样式。两个数据域之间存在样本分布不一致的情况,可以用于本文域适应变化检测方法的验证。图8LEVIR-CD与S2Looking中的建筑物对比Fig. 8Comparison of buildings in LEVIR-CD and S2Looking变化检测任务中常用的评价指标有准确率P(Precision)与召回率R(Recall),P与R的计算公式如下: (12) (13)式中,TP表示实际为正样本并且被模型识别为正样本的数量,FP表示实际为负样本但被模型识别为正样本的数量,FN表示实际为正样本但被模型识别为负样本的数量,TN表示实际为负样本并且被模型识别为负样本的数量。在实际应用中,由于P和R是两个相互影响的指标,所以本文也采用综合这两者的指标F1分数,F1的计算如下: (14)此外,本文也采用IOU作为评价指标,在变化检测中,仅有“变化”与“非变化”两个类别,本文仅计算“变化”类别的IOU,其计算如式(15)。 (15)3.2 对比算法由于当前专门针对遥感图像变化检测域适应的研究较少,为了验证所提出方法的有效性,将当前语义分割域适应任务中的先进算法进行了变化检测适配,然后将本文方法与之进行对比,主要对比了3种算法,现介绍如下。DACS(Tranheden等,2021)是2021年被提出来的,是混合来自两个域的图像以及相应的标签和伪标签,除了训练有标签的数据本身之外,还对这些混合样本进行训练。DAFormer(Hoyer等,2022a)是2022年被提出的,它将Transformer模型引入到语义分割无监督域适应中,采用罕见类别重采样策略解决类别不均衡的问题,并使用ImagNet预训练模型特征距离限制,防止模型遗忘已知类别。HRDA(Hoyer等,2022b)是2022年被提出来的,采用了一种多分辨率训练方法,使得在训练高分辨率图像的时候,运用高分辨率裁切来保存细粒度的分割细节,同时用大的低分辨率的裁切,通过一个可学习的范围注意力机制来捕获大范围的上下文依赖。3.3 实现细节本文实验的硬件环境为Intel Xeon Gold 6240 CPU@2.6 GHz,128 G内存以及NVIDIA Quadro RTX8000,软件环境为pytorch深度学习框架。基础变化检测模型采用基于孪生网络的编码器-解码器结构,编码器采用ConvNext-base(Liu等,2022b),解码器采用UperNet(Xiao等,2018),双时相特征融合采用级联融合,域适应模型采用两阶段训练方式。第一个阶段是仅在源域数据上训练,在原始1024尺度的图像上随机裁切,以512尺度进行训练,训练批次大小为16,训练迭代次数为10 k,优化器采用AdamW,初始学习率设置为0.0001,并且在前1000个迭代使用线性学习率预热策略,学习率衰减策略采用poly。在数据增强上,采用(0.5,2)范围内的随机缩放、随机裁切、随机上下左右翻转、随机旋转、HSV空间抖动、输入归一化等策略,在官方测试集上进行验证并保留训练中指标最高的模型。第二个阶段是在源域数据和目标域数据的混合域上进行训练,在教师模型生成为伪标签的时候,不进行数据增强,直接输入归一化之后的目标域数据。学生模型采用强数据增强,包括第一个阶段使用的数据增强以及CutMix、高斯模糊,学习率采用CosReStart,每1000次迭代进行一次学习率重启,其余设置与第一个阶段相同。在第二个阶段中,学生模型与教师模型具有相同的结构,都采用遥感变化检测中常用的基于孪生网络的编码器—解码器结构;学生模型与教师模型具有不同的参数,教师模型的参数是学生模型的参数在训练过程中的指数移动平均EMA(Exponential Moving Average),以此来提升教师模型生成目标域伪标签的稳定性,且教师模型在进行伪标签生成的时候,不进行梯度的反向传播。教师模型参数的EMA更新方式如下: (16)式中,表示教师模型的参数,表示学生模型的参数,t表示迭代数,为指数移动平均中的超参数,取0.998。此外,针对对比算法,本文相比于原始官方代码并未做很多参数上的搜索。DACS、HRDA、DAFormer 3个模型原本是适配于语义分割任务的域适应算法,本文按照变化检测算法中常用孪生网络的架构对它们的模型结构进行了改造,以适配变化检测任务。在模型上,DACS的编码器采用ResNet101,解码器采用DeepLabv2;DAFormer的编码器使用MIT-B5,解码器采用SegFormer;HRDA的编码器和解码器与DAFormer相同。对其进行变化检测任务适配时,在孪生编码器之后,使用级联操作,将双时相特征级联起来,然后再使用对应的解码器进行后续的多尺度解码。其余参数设置均与原始官方代码相同。3.4 实验结果及分析本文以LEVIR-CD和S2 Looking互为源域和目标域进行实验。表2为以LEVIR-CD为源域、S2Looking为目标域时不同算法的指标结果,表3为以S2Looking为源域、LEVIR-CD为目标域时不同算法的指标结果。注: 表中最好的结果使用粗体进行了标记;第二好的结果使用下划线进行了标记;Source Only表示使用本文的基础变化检测算法仅在源域LEVIR-CD数据集上训练,Target Only表示使用本文的基础变化检测算法仅在目标域S2Looking数据集上训练,其中Target Only的结果也就是域迁移模型结果的上限。表2LEVIR-CD域迁移至S2Looking时不同算法的结果Table 2Results for different algorithms when transfer LEVIR-CD domains to S2Looking /%注: 表中最好的结果使用粗体进行了标记;第二好的结果使用下划线进行了标记;Source Only表示使用本文的基础变化检测算法仅在源域LEVIR-CD数据集上训练,Target Only表示使用本文的基础变化检测算法仅在目标域S2Looking数据集上训练,其中Target Only的结果也就是域迁移模型结果的上限。表3S2Looking域迁移至LEVIR-CD时,不同算法的结果Table 3Results of different algorithms when migrating S2Looking domains to LEVIR-CD /%由表2可见,本文方法ICDA-CD在LEVIR-CD域迁移至S2Looking任务中取得了最高的F1和IOU,分别为43.91%和28.31%,相比于DAFormer分别高出1.55%和1.44%,相比于HRDA分别高出2.46%和2.16%,相比于仅源域训练的Source Only分别高出12.01%和9.33%。在其他先进的算法中,DACS算法以ResNet50作为编码器,以DeepLabv2作为解码器,都是较弱的模型,所以其表现不佳;DAFormer采用SegFormer作为基础模型,具有较好的域迁移效果,但是由于变化检测任务是一个二分类任务,导致DAFormer中用于解决类别不平衡的罕见类别重采样策略失效,且遥感变化检测数据和ImageNet中的数据差异较大、无类别重叠,导致DAFormer中用于保持ImageNet原始类别特征提取能力的特征距离限制策略失效,所以DAFormer的表现也不如本文方法好。HRDA算法主要是解决在域适应时Cityscapes数据分辨率太大的问题,而S2Looking和LEVIR-CD数据集都是1024×1024像素的图像分辨率,并不存在分辨率太大的问题,所以HRDA算法的表现也不如本文方法好,在实际业务应用中,遥感图像的尺度会有上万分辨率,这时HRDA可能会有突出的效果。另一个观察到的现象是,所有的域适应算法在S2Looking上的召回率都不高,仅有25%—30%,这与2个域中的建筑物差异太大有关,本文所提出的ICDA-CD具有最高的召回率30.69%,这也可以说明本文的算法有更好的域适应能力,可以召回更多目标域中的正样本。由表3可见,本文方法ICDA-CD在S2Looking域迁移至LEVIR-CD任务中也取得了最高的F1分数和IOU,分别为74.75%和59.68%。相比于LEVIR-CD域迁移至S2Looking时的指标高出不少,这是由于S2Looking数据集中的样本更加丰富,当将其作为训练样本的时候,可以在样本更加简单的LEVIR-CD数据及上取得很好的效果。本文方法ICDA-CD在两个遥感变化检测数据集相互域迁移时,都取得了最佳的综合指标,说明了该方法的有效性。此外,从表2和表3可以看出在LEVIR-CD域迁移至S2Looking时,本文的算法的准确率较低,但在S2Looking域迁移至LEVIR-CD时,本文的算法准确率最高。这与数据集的难度及本文所采用的实例级对比学习有关。当LEVIR-CD域迁移至S2Looking时,由于S2Looking的难度较大,在域适应之前正样本的召回率较低,仅有19.75%,从而导致目标域的正样本实例较少。而当S2Looking域迁移至LEVIR-CD时,在域适应之前正样本的召回率较高,为67.17%,导致此时目标域的正样本实例较多。当目标域的正样本实例越多,使用实例级对比学习之后,源域特征可以更有效地与目标域特征对齐,准确率P就会更高。图9展示了本文方法ICDA-CD在LEVIR-CD域迁移至S2Looking时的预测结果,从左到右每一列依次为时相一的输入图像、时相二的输入图像、变化标签、仅在源域LEVIR-CD上训练时的预测结果、DAFormer算法的预测结果、本文算法的预测结果、仅在目标域S2Looking上训练的预测结果。在预测结果中,白色表示检测正确的样本,红色表示误检的样本,蓝色表示漏检的样本。从图中第4列可以看出,当仅源域数据训练时,模型输出的检测结果比较少,整体白色的结果较少,但是红色的误检也较少,当进行域适应之后,如第5列和第6列,召回开始有所提升。对比DAFormer和本文方法的结果,如第2行,本文的方法的误检更少,同时可以将右下角的建筑物的变化检测出来,第4行中,本文方法可以将中间的变化建筑物检测出来,本文方法的预测结果相比于DAFormer更加接近仅在目标域上训练的结果。图10展示了本文方法在S2Looking域迁移至LEVIR-CD时的预测结果,在第4行中,SourceOnly和DAFormer都将新增的田径场识别为变化建筑,本文的方法可以将其正确识别。对比第1行DAFormer和本文方法的预测结果,从右下角的结果可以看出,本文方法可以基本召回所有的变化样本。以上预测结果的分析证明了本文所提出方法的有效性。图9LEVIR-CD域迁移至S2Looking时各算法的预测结果Fig. 9Prediction results for each algorithm when transferring the LEVIR-CD domain to S2Looking图10S2Looking域迁移至LEVIR-CD时各算法的预测结果Fig. 10Prediction results for each algorithm when transferring the S2Looking domain to LEVIR-CD3.5 消融实验为了验证本文所提出的各个方法的有效性,本小节进行了详细的消融实验。表4展示了LEVIR-CD域迁移至S2Looking时的消融实验结果,表中IC表示实例对比学习,PLQE表示伪标签质量估计,基线模型采用基于自训练的教师—学生模型,伪标签以高置信度产生。从表4中可以看出,本文所提出的3个改进均可以有效提升指标,其中CutMix带来的增益最大,可以在基线模型的基础上将F1提升3.41%、IOU提升2.88%,这证明了域混合策略在域适应任务中的关键性。使用实例对比学习IC可以将F1进一步提升1.3%、将IOU提升1.11%,证明了将源域正样本特征与目标域正样本特征显式拉近是可以提升模型的泛化性能的。伪标签质量估计PLQE带来的提升较小,F1提升0.4%左右。通过上述实验分析,说明了不同改进点对模型的定量影响程度,由此验证了本文方法设计的合理性与有效性。表4LEVIR-CD域迁移至S2Looking时的消融实验结果Table 4Results of ablation experiments when LEVIR-CD domains migrate to S2Looking图11展示了LEVIR-CD域迁移至S2Looking时的消融实验结果可视化,图11中(a)—(f)表示不同的遥感图像对,第4行至第8行分别表示使用本文提出的不同的模块的组合时的模型预测结果,其顺序与表4中的消融实验结果一一对应。在预测结果中,白色表示检测正确的样本(TP),红色表示误检的样本(FP),蓝色表示漏检的样本(FN)。从图11中可以看出,整体而言,各个模型的召回率较低,图中大片为蓝色。使用本文提出的各个模块之后,可以提升跨域检测效果,如图11(e)列中,使用3个模块的组合之后,模型可以将图中的正样本基本都预测出来,相比于基线模型的预测结果,提升效果很明显。图11LEVIR-CD域迁移至S2Looking时的消融实验结果可视化Fig. 11Visualization of ablation experiment results when transferring the","result":"通过实验评估了所提出的基于实例对比学习的遥感域适应变化检测模型(ICDA-CD)的性能,并与DACS、DAFormer、HRDA等先进域适应算法进行了对比。实验使用了LEVIR-CD和S2Looking两个数据集,分别在两种情况下进行:LEVIR-CD作为源域,S2Looking作为目标域;反之亦然。实验中不使用目标域的真实标签。\n\nLEVIR-CD数据集包含20个地区的遥感图像,时间跨度从2002年到2018年,分辨率为0.5米,图像大小为1024×1024像素,共637对RGB图像。S2Looking数据集包含5000对超高分辨率的侧视卫星图像,时间跨度为2017年至2020年,图像分辨率与LEVIR-CD相同,但场景更加多样化。\n\n评价指标包括准确率(Precision)、召回率(Recall)、F1分数和IOU。实验结果显示,ICDA-CD在LEVIR-CD迁移至S2Looking任务中取得了最高的F1分数和IOU,分别高出其他算法1.55%-2.46%。在S2Looking迁移至LEVIR-CD任务中,ICDA-CD同样取得了最佳性能。\n\n实验的硬件环境包括Intel Xeon Gold 6240 CPU、128G内存和NVIDIA Quadro RTX8000显卡,软件环境为pytorch框架。基础模型采用基于孪生网络的编码器-解码器结构,编码器使用ConvNext-base,解码器使用UperNet。域适应模型采用两阶段训练方式,第一阶段仅在源域数据上训练,第二阶段在源域和目标域的混合数据上训练。\n\n消融实验验证了实例对比学习、伪标签质量估计和CutMix等方法的有效性。实验结果表明,CutMix带来的增益最大,可以显著提升模型性能。实例对比学习进一步提升了F1分数和IOU,伪标签质量估计的提升较小。\n\n预测结果的可视化分析表明,ICDA-CD在LEVIR-CD迁移至S2Looking时能够减少误检并检测出更多的变化建筑物。在S2Looking迁移至LEVIR-CD时,ICDA-CD能够正确识别新增的田径场等场景,基本召回所有变化样本。\n\n综上所述,ICDA-CD在两个遥感变化检测数据集的域迁移任务中均取得了最佳性能,验证了所提出方法的有效性。消融实验进一步证明了各个改进点对模型性能的定量影响,展示了方法设计的合理性。","language":"zh"},{"title":"基于实例对比学习的遥感建筑物变化检测域适应算法","chapter":"4 结论","content":"本文以遥感图像中的建筑物变化检测算法为研究对象,探究了在跨数据域检测时的无监督域适应方法,主要结论如下:本文提出了实例级对比学习域适应变化检测算法ICDA-CD。主要贡献点有3个:区域级域混合、实例级对比学习和伪标签质量估计加权损失。其中区域级域混合将源域数据与目标域数据混合在一个样本上,混合域样本可以使模型更加关注域不变特征;实例级对比学习应用在模型的编码器和解码器中,在编码器中,拉开变化实例区域双时相特征距离,在解码器中,拉近各个变化实例区域特征之间的距离,从而降低模型对源域和目标域特征表示的差异;伪标签质量估计通过教师模型的预测值得出各个像素位置的伪标签质量估计,然后对损失进行加权,这可以使得低置信度的标签可以被有效利用,不浪费教师模型的预测结果。本文将所提出的方法在LEVIR-CD和S2Looking数据集上进行了域迁移实验,并与先进的域适应算法进行了对比分析和消融实验,证明了本文所提出的方法可以有效提升跨数据域无监督域适应变化检测算法的精度。此外,本文所提出的的跨域遥感变化检测算法也存在一定的局限性。具体表现为本文所提出的方法无法端到端完成训练,需要两个训练阶段。首先第一个阶段仅在源域数据上进行训练,然后第二个阶段在目标域数据上进行域适应调整。流程较为复杂,未来可以探究更好的训练策略以实现跨域变化检测模型的端到端训练。","result":"提出了一种名为ICDA-CD的遥感建筑物变化检测域适应算法,通过区域级域混合、实例级对比学习和伪标签质量估计加权损失三个主要贡献点,实现了跨数据域的无监督域适应。算法在LEVIR-CD和S2Looking数据集上进行了域迁移实验,与先进算法对比分析和消融实验,验证了其有效性。然而,该方法存在局限性,如无法端到端完成训练,需要分两个阶段进行,未来研究可探索更优的训练策略。","language":"zh"}]
      张奇,路遥,王飞,张雪涛,郑南宁
      2024, 28(7): 1771-1788. DOI: 10.11834/jrs.20233259
      基于实例对比学习的遥感建筑物变化检测域适应算法
      摘要:建筑物变化检测是遥感影像智能解译中的重要研究方向。针对建筑物变化检测的跨域变化检测算法中存在的像素级对比学习噪声过大和目标域样本利用不充分等问题,本文提出了实例级对比学习域适应变化检测算法ICDA-CD。首先,使用区域级域混合替代实例级域混合,以实现源域和目标域图像的有效混合;然后,利用实例级对比学习,降低伪标签噪声的影响。具体来说,在编码器中,拉开变化实例区域双时相特征距离,并在解码器中,拉近各个变化实例特征之间的距离,这可以显著提升模型对源域和目标域特征表示的一致性;最后,在损失计算部分使用伪标签质量估计,使得低置信度区域的像素也可以参与训练,提高了目标域样本的利用率。将本文方法与DACS、DAFormer、和HRDA等3种目前先进的算法进行实验对比。结果表明本文所提出来的方法在LEVIR-CD域迁移至S2Looking以及S2Looking域迁移至LEVIR-CD时F1分数分别达到了43.91%和74.75%,优于几种先进的算法。  
      关键词:遥感图像;建筑物变化检测;对比学习;域适应;深度学习;伪标签   
      155
      |
      377
      |
      0
      <HTML>
      <网络PDF><Enhanced-PDF><Meta-XML>
      <引用本文> <批量引用> 45880245 false
      发布时间:2024-07-31
    • [{"title":"从光学到SAR:基于多级跨模态对齐的SAR图像舰船检测算法","chapter":"1 引言","content":"合成孔径雷达SAR(Synthetic Aperture Radar)是一种主动式微波成像传感器,具有全天时、全天候观测地球的能力。近年来,随着SAR图像数据的不断增长,SAR舰船检测作为SAR图像解译的一个重要分支,因其在海洋监测、国防安全等方面的重要价值而备受关注。在民事领域,对民船进行准确的检测,有利于推动渔业安全管理、海面监管、海洋救援等工作的开展,同时可以在一定程度上打击偷渡和违法捕捞等行为。利用SAR图像数据在深度学习领域中开展目标检测工作已经成为一个重要的研究方向。由于技术限制,早期遥感图像的成像分辨率较低,研究时将舰船等效为点目标,传统方法针对舰船与海平面背景有较强的对比度这一特性,对SAR图像中的舰船目标进行检测(Pappas等,2018)。其中,恒虚警检测算法CFAR(Constant False Alarm Rate)是一种具有代表性的传统算法。然而,CFAR算法对于干扰存在严重的复杂场景会产生较高的虚警率,其高度依赖于背景杂波模型的构建,实际应用效率较低(Zhang等,2018;侯卫和李勇,2023)。此外,CFAR算法使用时需要专业人员有针对性地设置参数,因此其泛化能力较差。因此,这些方法在实际应用中仍然面临着巨大的困难。随着深度学习技术的飞速发展,目标检测领域也受到了广泛的关注。目前基于深度学习的方法大致可以分为双阶段(Two-stage)算法和单阶段(One-stage)算法两大类。双阶段算法首先对输入图像进行特征提取和区域筛选,得到大量的候选框,之后进行分类检测,在检测精度上具有优势。经典的双阶段算法如:Fast R-CNN(Girshick,2015)、Faster R-CNN(Ren等,2015)、Cascade R-CNN(Cai和Vasconcelos,2018)等。单阶段算法简化了整个流程,将其视为一个回归问题,推理速度得到极大的提高。经典的单阶段算法如:SSD(Liu等,2016)、YOLO系列(Redmon等,2016;Redmon和Farhadi,2017,2018)、RetinaNet(Lin等,2017)等。受到光学目标检测算法(Liu等,2018;Wu等,2020;Lu等,2019;Dai等,2017)的启发,遥感图像目标检测领域发展迅速(Zhou等,2021;Yao等,2021;Yu等,2020)。当前阶段的SAR图像目标检测算法主要集中在网络模型的创新上,以提升SAR图像目标检测的性能。研究人员通过调整网络结构和设计先进的特征提取器来实现这一目标。例如,有研究(Lin等,2019;Zhao等,2020)选择引入新的注意力机制,增强骨干网络的特征提取能力。另一些研究(Wang等,2023a;Zhang等,2022)则采用特征融合的思想,通过有效地利用提取到的不同特征,将它们进行联合建模,以提升模型的鲁棒性和性能。此外,还有一些研究(Miao等,2022)选择设计更轻量化的模型,以提高算法的效率和实时性。但是由于SAR图像的成像机理与光学图像存在显著差异,使得SAR图像具有独特的特征和问题,相比于光学图像,SAR图像的成像机理和特征表示具有一定的复杂性,其特征更加抽象和难以直观理解。这些创新方法虽然为SAR图像目标检测带来了显著的改进,但是大多都是直接参照光学图像算法的改进思路,并不完全适用于SAR图像,尽管在网络模型和特征提取器的创新方面取得了进展,但在SAR图像目标检测的性能提升方面仍存在一定的限制。因此,仅仅将光学图像算法直接应用于SAR图像往往不能取得理想的结果。另一方面,由于SAR图像数据获取和标注较为困难,需要巨大的经济成本。相较于光学数据而言,现阶段SAR图像的数据量比较匮乏,仅仅采用现有的SAR图像数据去训练出一个检测性能好、鲁棒性又高的模型难度较高。然而光学数据量要远远大于SAR图像数据,并且光学图像具有丰富的细节信息和直观的特征表示,因此更易于观察和解译。在遥感图像研究领域,为了解决由单源数据的局限性而导致的模型性能提升遇到瓶颈的问题,一些学者(Cao等,2019;Wang等,2023b,2023c;Li等,2022;Zhang等,2023)也选择采用多源数据融合的方法来进行智能解译,从而提升网络性能。在SAR图像目标检测任务中,光学图像可以作为一种补充数据源,通过大量的光学数据来辅助训练SAR数据,有助于学习出一个知识更为丰富的模型,因此选用什么样的训练方式能够更为合理的将这两种模态的图像进行利用是一个值得探索的问题。由于SAR模态数据与光学模态数据在成像机理和特征表示上存在显著差异,实现这种跨模态知识的异质迁移具有很大的挑战性。Li等(2019)选择基于预训练模型进行微调的方法,通过在大规模光学图像数据上预训练的卷积神经网络,将预训练模型的权重用于初始化跨模态任务的模型,并在目标任务上进行微调,可以加快模型的收敛速度和提高性能。但是这种方法过度依赖于训练的数据规模和多样性。如果预训练数据集较小或不够多样化,预训练模型的特征表示可能无法充分适应跨模态任务的需求。Bao等(2021)选择使用配对的光学—SAR数据进行预训练,使得预训练模型更贴合目标任务。然而,目前可用于训练数据的一一配对的光学图像和SAR图像较少且难以获得,因此该方案可能是次优的。Shi等(2022)选择基于风格迁移的方法,这类方法通过风格技术,将光学图像转换为类似于SAR图像的风格和外观,以减少模态差异带来的影响。常见的风格迁移方法包括基于风格的生成器架构StyleGAN(Karras等,2019)、循环一致性生成对抗网络CycleGAN(Zhu等,2017)等。然而,这些方法仅将光学图像转换为SAR图像,没有涉及SAR图像的物理特性。这些类SAR图像并没有表现出与真实SAR图像相同的散射特性,尤其是对于目标而言(图1)。类SAR图像中存在大量的低质量数据,会影响检测的最终结果。Guo等(2021)选用基于领域自适应的方法:这类方法旨在通过领域自适应技术,将源域(光学数据)和目标域(SAR数据)的特征分布进行对齐,以实现跨模态的知识迁移。然而,SAR和光学图像的特征空间之间存在广泛的潜在异构性,域适应方法可能难以弥合如此大的域间隙。但是不可否认的是,基于域自适应的算法为使用光学图像去辅助SAR图像进行检测提供了一个很好的思路,尤其是对于不同场景下的图像而言。图1同场景下光学图像、SAR图像、以及经过风格迁移之后的类SAR图像的对比图Fig. 1In the same scene, the comparison of optical images, SAR images, and SAR-like images after style transfer综上所述,本文提出了一种基于多级跨模态对齐的SAR图像舰船检测算法MCMA-Net,该算法包括两个模块:一个基于邻域—全局注意力的特征交互网络NGAN以及一个多级模态对齐模块MLMA。通过对不同级别的模态特征信息采取不一样的关注策略以及从多个级别对齐不同模态间的特征,实现了利用光学模态中丰富的信息去辅助SAR图像数据进行训练。首先基于邻域—全局注意力的特征交互网络来进行特征提取,对于局部信息更加丰富的浅层特征而言,我们采用邻域注意力机制,直接将注意力操作范围限制到了每个像素的邻域,提升了网络对局部信息的提取能力。对于全局信息比较丰富的深层特征,采用全局自注意力机制,通过对深层特征建立一种全局级别的关联,能够获取更丰富的语义信息表示。接着,为了借助光学图像中的细节信息丰富SAR图像的特征表示,提出了多级模态对齐模块,通过从局部级别到全局级别再到实例级别的对两种模态的特征进行对齐,逐步减小光学模态图像和SAR模态图像的差异性,通过在对齐过程中探索更多的模态共享特征,实现跨模态的知识传输。最后,与现阶段的先进算法在SSDD(Li等,2017)数据集和HRSID(Wei等,2020)数据集的实验结果进行对比,证明了我们的模型具有一定的鲁棒性,且取得了较优越的性能。","result":"介绍了合成孔径雷达SAR图像舰船检测的重要性和应用背景,指出了SAR图像在海洋监测和国防安全中的关键作用。随着SAR图像数据量的增长,舰船检测技术的发展变得尤为重要。文中回顾了传统舰船检测方法,如CFAR算法,及其在复杂场景下的局限性。随后,讨论了深度学习技术在目标检测领域的应用,包括双阶段和单阶段算法,并指出了现有方法在SAR图像目标检测中的不足。\n\n文章强调了SAR图像与光学图像在成像机理和特征表示上的差异,导致直接应用光学图像算法到SAR图像上存在挑战。提到了多源数据融合方法在提升模型性能方面的潜力,尤其是在SAR图像数据量有限的情况下。介绍了几种跨模态知识迁移的方法,包括预训练模型微调、配对数据预训练、风格迁移和领域自适应,分析了它们在SAR图像目标检测中的适用性和局限性。\n\n最后,本文提出了一种新的基于多级跨模态对齐的SAR图像舰船检测算法MCMA-Net,该算法包含邻域—全局注意力的特征交互网络NGAN和多级模态对齐模块MLMA。通过不同级别的模态特征对齐,利用光学图像信息辅助SAR图像训练,提高了模型的鲁棒性和性能。实验结果表明,所提算法在SSDD和HRSID数据集上具有优越的性能。","language":"zh"},{"title":"从光学到SAR:基于多级跨模态对齐的SAR图像舰船检测算法","chapter":"2 模型方法","content":"针对由于SAR图像特殊的成像机理导致的特征不明显,以及SAR图像数据获取和标注困难导致训练样本不足等问题,提出了一种基于多级跨模态对齐的SAR图像舰船检测算法MCMA-Net,算法具体框图如图2所示。首先对于输入的图像进行特征提取,之后针对骨干网络不同级别的特征所独有的优势,对其采用不同的注意力机制。通过对浅层特征和深层特征采用不同的关注策略,提升骨干网络对不同模态不同层级特征的提取能力,挖掘更多有用信息,促进后续更好的实现跨模态对齐。接着通过采用多级模态对齐网络,尽可能的降低两种模态之间的差异性,分别对骨干网络浅层的局部特征,深层的全局特征,以及实例级的特征采用不同的对齐方式进行对齐。最后,通过上述步骤获取的信息将分别传输到边框回归以及分类子网络中进行定位和判别任务。接下来,我们将对MCMA-Net进行详细的描述。图 2MCMA-Net算法的整体流程图Fig. 2The overall framework of MCMA-Net algorithm2.1 基于邻域—全局注意力的特征交互网络NGAN现阶段的骨干网络对于浅层特征的处理还有深层特征的处理大多使用同一种方法,但是由于浅层特征和深层特征具有不同的语义信息和表达能力,这种处理方式可能并不是最优的。具体而言,在浅层网络层中,卷积和池化操作的感受野较小,只能捕捉到输入图像的局部细节和纹理等低级特征。因此,浅层特征更接近输入图像的原始信息,通常包含更多的局部信息。相比之下,深层特征具有更大的感受野,对于检测物体的整体结构、关系等全局信息更敏感,能够提供更丰富的语义表达能力。如果采用相同的处理方法来处理这些特征,可能无法充分发掘和利用它们的不同表达能力,从而限制了网络的表示能力。针对这个问题,本文提出了一种基于邻域—全局注意力的特征交互网络NGAN,通过对浅层特征、深层特征分别采用邻域注意力机制和全局自注意力机制,能够在兼顾全局上下文建模能力的同时,提升局部特征的编码能力,同时也能充分挖掘不同模态之间的局部信息和全局信息,便于后续模态对齐。对于输入图像,首先采用两个卷积核为3、步长为2的卷积进行嵌入输入,骨干网络的总体由4个级别组成,值得注意的是,前3个级别由多个邻域自注意力NA(Neighborhood Attention)块组成(Hassani等,2023),后一个级别由多个全局自注意力SA(Self Attention)块组成(Dosovitskiy等,2021),NA块和SA块的结构如图3所示。这些块类似于Transformer编码器层。每个层由邻域自注意力(NA)或者是全局自注意力(SA)、多层感知机MLP(Multi-layered Perceptron)、每个模块前的层归一化LN(Layer Norm)以及跳跃连接组成。每个级别后面都连接一个卷积核为3、步长为2的下采样器,除了最后一个级别的特征。通过使用下采样器,特征的空间大小减少了为原来的一半,而通道数量增加了一倍。图3NA块与SA块的结构示意图Fig. 3The structure of NA block and SA block具体而言,对于包含更多局部信息的浅层特征(骨干网络前3个阶段),选择采用邻域注意力机制,如图4(a)所示,网络可以学习到每个像素与其邻域像素之间的依赖关系。这有助于模型更好地理解和建模像素之间的空间关系,有助于网络能更好的利用局部信息。我们令代表来处的一个像素的相邻区域,对于的邻域,。因此,单个像素的邻域注意力为 (1)式中,为变量的线性投影,为相对位置偏差。将其加入每个注意力权重,依照其相对位置。最后,扩展到所有的像素中,构成了邻域注意力。图4邻域注意力和全局自注意力(对于单个像元)的query-key-value结构示意图Fig. 4Query-key-value structure of neighborhood attention and global self-attention (For a single pixel)而对于包含更多全局信息的深层网络特征而言(骨干网络最后一个阶段),我们通过采用全局自注意力机制,如图4(b)所示,在深层特征中引入全局上下文信息,弥补局部信息的不足,使网络可以学习到不同区域之间的长距离依赖关系,使得特征能够更好地理解和编码目标的全局结构和语义。此时,函数将每个像素映射到所有像素,即包含全部可能的像素。除此之外,这时候的,,真正实现了全局自注意力机制,通过去除偏置项,全局自注意力机制可以表示为 (2)2.2 多级模态对齐模块MLMA由于SAR图像数据获取困难以及人工标注困难导致现阶段SAR数据量要远远低于光学数据,除此之外SAR图像特殊的成像机理导致的其特征表示不直观。因此利用少量的SAR图像数据训练出一个性能较优越的检测模型存在一定的困难。与现阶段的SAR图像检测算法不同,我们选择借助包含更多细节丰富特征信息以及数据量更加庞大的光学数据,希望利用光学特征对SAR图像的模态表示进行补偿,从而建立稳健的SAR模态特征。受域自适应算法的启发(Saito等,2019),本文采用了一种多级模态对齐模块,通过模态对齐的方式来实现这种知识传输。但是由于两种模态之间巨大的差异性,仅仅进行一次模态对齐很难达到好的效果。因此为了能提取到更多的模态不变特征以及缩小这种模态之间的差异性最终选择通过分阶段的从3个级别对两种模态的特征进行对齐,使光学图像特征和SAR图像特征在特征空间中的分布尽可能相似。如图2所示,我们分别从局部级别、全局级别以及实例级别进行模态对齐。通过对不同级别的特征采取更适合自身特点的对齐方式,能够更合理的利用光学特征去辅助SAR图像特征,减少误差。模态对齐操作主要是通过特征提取器和模态分类器来实现的。其中模态分类器的主要目的是通过分析输入特征的模态信息,判断特征是来自光学模态还是SAR模态。而特征提取器的任务是它通过从输入数据中学习提取模态不变的特征表示,从而利用提取有用的特征来欺骗模态判别器,使得不同模态的特征在特征空间中更加接近。在训练过程中,特征提取器和模态判别器进行博弈,特征提取器通过最小化模态判别器对特征的模态判断误差来学习模态不变的信息。同时,通过最大化对特征模态判断的准确性来使模态判别器区分不同模态的特征。通过这种训练方式,特征提取器能够生成具有高度相似性的特征表示,从而使模态判别器更难区分特征的来源模态,使得不同模态的特征在共享的特征空间中趋于对齐,以更好的实现跨模态的信息传输。具体而言,对于浅层特征,特征往往具有较小的感受野,浅层特征上的局部信息比较丰富,因此我们对具有局部性和通用性的低级特征(骨干网络第一阶段输出的特征)采取局部对齐的方式进行处理。在局部级别,通过利用模态判别器用来区分这些浅层的特征都来自那个模态,而我们的特征提取器就不断的提取特征来对进行欺骗,通过这样可以使模态间的差异性降低。是一个卷积核等于1的全卷积网络,且输入模态的特征预测图与输出模态的特征的维度是相匹配的。在训练局部级别的模态判别器的时候,我们采取的是最小二乘损失,具体表示为 (3) (4) (5)式中,代表的是输入图像,代表的是局部特征,也就是骨干网络第一个阶段输出的特征,代表着局部级别的模态判别器的输出,代表着输入图像的模态,代表宽度,代表着高度。随着网络的加深,感受野的范围扩大。同时,深层的特征图中的全局信息变得更加丰富。为了更好的处理利用这些具有全局性和区分度的高层特征(骨干网络的第3阶段输出),我们在全局层面对这些特征进行对齐操作。为了减少具有特殊性的深层特征之间的差异,我们引入了一个模态判别器,其主要任务同样也是学习区分输入特征是来自于哪个模态。通过这样的训练,模态判别器能够学习到不同模态之间的差异,并为特征对齐提供指导。的分类损失可以表示为 (6) (7) (8)式中,代表着骨干网络第3个阶段输出的特征,代表着全局级别的模态判别器的输出。此外,由于实例级特征之间仍然存在着模态间的差异,例如外观、尺度、视角等,忽略这些差异可能会对检测结果产生不利的影响。为了解决这个问题,本文进一步进行实例级对齐,以帮助模型更准确理解光学和SAR模态之间的关系,并学习更广泛的规则,从而增强模型的泛化能力。由于实例级的特征独立地表示局部目标,缺乏对上下文整体信息的感知,有效地利用整体上下文信息可以准确地诱导实例级对齐,对后续的检测任务也至关重要。因此,我们我们首先将上下文特征(和)与实例级特征()进行级联融合,之后对融合的特征()采用了实例级判别器,通过不断的通过损失对其进行优化,从而实现实例级别的严格对齐。其损失函数表示为 (9) (10) (11)式中,代表着经过表示通过ROI-Pooling获取的目标建议特征,代表着实例级的模态判别器的输出。最后,我们方法的检测任务损失可以写为。因此,MCMA-Net的整体损失表示如下: (12)式中,表示权重因子,用于平衡检测任务和域判别器的损失。的默认值为0.1。","result":"该论文提出了一种名为MCMA-Net的SAR图像舰船检测算法,旨在解决SAR图像特征不明显和训练样本不足的问题。算法通过多级跨模态对齐,利用不同级别的特征优势,采用不同的注意力机制,提升特征提取能力。MCMA-Net包含特征交互网络NGAN和多级模态对齐模块MLMA。\n\nNGAN通过邻域注意力机制和全局自注意力机制,分别处理浅层和深层特征,挖掘局部和全局信息,为模态对齐提供基础。MLMA利用光学数据辅助SAR图像特征,通过局部、全局和实例级别对齐,减少模态差异,实现跨模态信息传输。\n\n具体实现中,NGAN采用Transformer编码器层结构,通过邻域自注意力和全局自注意力块,学习像素间依赖关系和长距离依赖。MLMA通过特征提取器和模态分类器,进行模态对齐训练,生成模态不变特征表示,使不同模态特征在特征空间中趋于对齐。\n\nMCMA-Net的损失函数包括检测任务损失和模态判别器损失,通过权重因子平衡两者,实现整体优化。算法框架如图2所示,详细介绍了特征提取、模态对齐和检测任务的流程。","language":"zh"},{"title":"从光学到SAR:基于多级跨模态对齐的SAR图像舰船检测算法","chapter":"3 实验与分析","content":"3.1 实验数据本文实验在训练的过程中采用的是光学图像数据和SAR图像数据,网络在两个模态中是完全共享的,在测试的过程中采用的是SAR图像数据。其中,采用的光学图像数据集为HRSC2016(Liu等,2017)数据集。HRSC2016数据集由1061张光学航空影像组成,图像的尺寸从300×300到1500×900不等。采用的SAR图像数据集为SSDD(Li等,2017)数据集、HRSID(Wei等,2020)数据集、以及自制数据集SSD3。其中SSDD数据集包含了1160幅大小约为500×500的SAR图像,这些SAR图像切片中一共包括2540艘舰船目标。将训练集和测试集的数量按照8∶2进行划分,按照原数据集设定的安排,将图像名称的最后一个数字为1或9的图像指定为测试集,其余图像用于训练。HRSID数据集由5604幅SAR图像组成,分辨率分别为0.5 m、1 m、3 m。这些SAR图像切片中一共包含16951艘舰船,每幅图像具有800×800像素。对于HRSID数据集,按照原始的数据集设定,65%的图像用于训练,35%的图像用于测试。SSD3数据集由910张SAR图像组成,分辨率为1 m。这些SAR图像切片中一共包含1730艘舰船,每幅图像的大小为256×256。我们按照8∶2的比例随机划分训练集和测试集。3.2 实验环境所有实验均在相同的硬件平台上进行,包括GPU(GTX-3090)、CPU(Intel 4210R)和32 G内存。实验环境为PyTorch 1.10.0,CUDA 11.1和cuDNN 11.1,Python 3.7。我们在Faster R-CNN上实现了MCMA-Net,设置(在总体损失函数中)为0.1。为了保证比较的公平性,包括我们在内的所有船舶检测器都在MMDetection工具箱下实现,所有模块的参数均参照MMDetection工具箱的原始设置,均采用随机梯度下降SGD(Stochastic Gradient Descent)作为优化器,采用0.01的学习率、0.9的动量、0.0001的权重衰减和0.5的IoU(Intersection over Union)阈值。3.3 评价指标为了有效的评估本文方法的检测性能,实验主要使用了5个评估指标,即:检出率d(detection probability)、虚警率f(False alarm probability)、准确率p(precision)、召回率r(recall)和平均精度mAP(mean Average Precision)。 (13) (14) (15) (16)式中,是将目标正确预测的数量,是将负样本错误预测为目标的数量,是将目标错误预测为负样本的数量,是正样本的数量。是一种被广泛采用的评价目标检测模型有效性的性能指标。它是一种兼顾准确率和召回率的综合度量,提供了对模型准确检测物体能力的全局评价。因此,在目标检测领域,常被作为首要的评价标准: (17)3.4 实验结果分析为了证明本文方法在跨模态特征传输上的有效性,本文在SSDD数据集上将本文实验结果与现阶段的6种检测算法:Faster R-CNN(Ren等,2015),PANET(Liu等,2018),Cascade R-CNN(Cai和Vasconcelos,2018),Double-Head R-CNN(Wu等,2020),Grid R-CNN(Lu等,2019),DCN(Dai等,2017)进行对比,如表1所示。实验结果表明,本文方法MCMA-Net取得了优于其他几种算法的最好的实验结果:96.6% mAP。相较于第二高的DCN算法,本文算法能够在检测精度上高出4.4%,这表明本文算法的设计是合理的。为了进一步证明本文算法的鲁棒性及优越性,本文还在HRSID数据集上进行了实验,结果如表2所示。可以看出,与现阶段较为先进的算法相比,本文算法MCMA-Net仍然取得了最好的检测精度,精度可以达到87.4%。与精度第二高的检测算法DCN相比,我们的精度提升了5.4%。表1不同的算法在SSDD数据集上的实验结果Table 1Experimental results of different algorithms on SSDD dataset表2不同的算法在HRSID数据集上的实验结果Table 2Experimental results of different algorithms on HRSID dataset与此同时,我们还比较了本文算法与其他算法的检出率与虚警率,通过表1和表2可以看出,虽然我们的算法的虚警率并不是最低的,但是与其他算法相较而言,差距并不明显。其中,在SSDD数据集上,本文算法的虚警率仅比基线模型Faster R-CNN高2.3%,仅比检测精度第二的DCN高1.5%。在HRSID数据集上,本文算法的虚警率仅比基线模型Faster R-CNN高1%,仅比检测精度第二的DCN高1%。但是与其他所有算法相比,MCMA-Net的检出率有大幅的提升。其中,在SSDD数据集上,本文算法的检出率比基线模型Faster R-CNN高7.5%,比检测精度第二的DCN高4.9%。在HRSID数据集上,我们的算法的检出率比基线模型Faster R-CNN高7.0%,比检测精度第二的DCN高5.5%。因为检出率的提升必然会带来误检导致虚警率增大,所以在虚警率差别不大的同时能大幅的提升检出率,证明本文算法的性能更优越。图5和图6是基于所有算法在SSDD数据集和HRSID数据集上的检出率和虚警率绘制得到的ROC曲线,可以看出本文算法MCMA-Net对应的粉色曲线在相同虚警率的情况下检出率最高,在虚警率极大值相差不大的情况下,检出率极大值点均远大于其他曲线,具有明显的优势。图5不同算法在SSDD数据集上的ROC曲线Fig. 5ROC curves of different algorithms on SSDD dataset图6不同算法在HRSID数据集上的ROC曲线Fig. 6ROC curves of different algorithms on HRSID dataset为了进一步验证我们提出的算法的实际应用价值,也在自制数据集SSD3上进行了定量实验,实验结果如表3所示。可以看出,我们的算法MCMA-Net取得了最优的检测性能,检测精度达到了89.2%,比基线模型Faster R-CNN高10.9%。与精度第二高的算法PANET相比,我们的精度提升了9.3%。更值得注意的是,在SSD3数据集上,我们的算法MCMA-Net同时拥有最高的检出率和最低的虚警率,远远优于其他所有算法,证明了我们的算法具有不错的鲁棒性。表3不同的算法在SSD3数据集上的实验结果Table 3Experimental results of different algorithms on SSD3 dataset由这些实验结果可以得出结论,本文设计的基于邻域—全局注意力的特征交互网络能够更好的挖掘不同级别的特征信息以取得更好的检测结果。除此之外,还说明了我们设计的多级模态对齐模块实现了利用光学信息去辅助SAR图像进行检测,并有益于检测效果的提升。图7本文算法与其他3种算法的可视化结果图Fig. 7Visual detection results of our method and some comparison methods on SSDD3.5 消融实验为了进一步证明我们设计的模块的有效性,我们对提出的MCMA-Net算法进行了消融实验,结果如表4所示,首先,我们评估了基于邻域—全局注意力的特征交互网络NGAN的性能,可以看出,相较于基础模型而言,在加入NGAN模块之后,总体检测精度提升了1.7%,更直接的证明了NGAN模块能够更有效的挖掘和利用SAR图像特征信息。与此同时,相较于基础模型而言,在只加入MLMA模块的时候,总体检测精度提升了0.9%,这证明了MLMA很好的实现了将光学模态特征迁移到SAR模态中,并有助于提升网络的性能。最后,当两个模块一起使用的时候发现并没有出现互斥的效果,也就是整体的检测结果仍然是提升的,相较于基础模型而言,提升了2.7%的检测精度,从而有效的证明了我们的算法的合理性。注:“√”表示使用相应模块;“×”表示没有使用相应模块。表4MCMA-Net的消融实验结果Table 4Ablation experimental results of MCMA-Net除此之外,为了证明浅层特征与深层特征之间存在互补关系,我们也进行了一组消融实验,即只对浅层特征进行跨模态学习、只对深层特征进行跨模态学习、以及同时对浅层特征和深层特征进行跨模态学习,如表5所示。实验结果表明在没有采用NGAN模块(基于邻域—全局注意力的特征交互网络)的情况下,仅对浅层特征进行跨模态学习的mAP为94.3%,仅对深层特征进行跨模态学习的mAP为94.2%,同时对浅层特征和深层特征进行跨模态学习的mAP为94.6%,检测精度高于前两种情况。由此可见对深浅层特征同时进行跨模态对齐的效果最好,即浅层特征和深层特征存在互补性,更进一步的证明了我们设计的跨模态算法MCMA-Net的合理性。注:“√”表示使用相应模块;“×”表示没有使用相应模块。表5对深、浅层特征进行跨模态学习的实验结果Table 5Experimental results of cross-modality learning for high-level and low-level features","result":"的实验与分析章节详细描述了基于多级跨模态对齐的SAR图像舰船检测算法的实验过程和结果。实验使用了光学图像数据集HRSC2016和SAR图像数据集SSDD、HRSID以及自制数据集SSD3。训练和测试集按照8:2的比例划分,实验在统一的硬件平台和软件环境下进行,采用Faster R-CNN作为基础模型,并通过MMDetection工具箱实现所有检测器。\n\n评价指标包括检出率、虚警率、准确率、召回率和平均精度mAP。实验结果显示,所提出的MCMA-Net算法在SSDD和HRSID数据集上均取得了优于其他6种检测算法的最佳性能,分别达到96.6%和87.4%的mAP。此外,MCMA-Net在自制数据集SSD3上也展现出了最高的检测精度和鲁棒性。\n\n消融实验进一步证明了所设计模块的有效性。邻域—全局注意力的特征交互网络NGAN和多级模态对齐模块MLMA均显著提升了检测精度。同时,消融实验还证实了浅层和深层特征之间存在互补性,表明跨模态算法MCMA-Net的合理性。\n\n可视化结果展示了MCMA-Net与其他算法相比在检测精度和鲁棒性方面的优势。整体而言,实验结果充分证明了所提出算法在SAR图像舰船检测任务中的有效性和优越性。","language":"zh"},{"title":"从光学到SAR:基于多级跨模态对齐的SAR图像舰船检测算法","chapter":"4 结论","content":"本文提出了一种基于多级模态对齐的SAR图像舰船检测算法MCMA-Net,通过将光学模态中更为丰富的知识迁移到SAR模态,有效的解决了由于SAR图像数据量少且特征表示不直观带来的问题。该算法首先采用基于邻域—全局注意力的特征交互网络NGAN,对骨干网络的特征表现不同的浅层特征和深层特征采取不同的注意力机制,提升了骨干网络对不同模态特征的提取性能,充分挖掘最具代表性的模态特征,有助于后续不同模态的对齐效果。接着采取多级模态对齐模块,通过逐步探索光学模态与SAR模态之间的模态不变表示,学习到更加丰富的特征表示,使得我们能够更好地利用光学模态的丰富特征来弥补SAR图像的特征表示的不足。最终进行实验验证所提出算法的有效性,实验表明,与现阶段算法相比,本文提出的算法能达到最佳的检测性能,更具有优越性。在未来研究中,将致力于提升本文算法对复杂场景下小目标的检测精度,在更具有挑战性的数据集上探索所提出方法的性能。","result":"提出了一种SAR图像舰船检测算法MCMA-Net,通过多级模态对齐解决SAR图像数据量少和特征不直观的问题。算法使用NGAN提升特征提取性能,并通过多级对齐模块学习模态不变表示,利用光学模态丰富特征弥补SAR图像不足。实验验证了算法的有效性和优越性,未来将提高对复杂场景小目标的检测精度。","language":"zh"}]
      何佳月,宿南,徐从安,尹璐,廖艳苹,闫奕名
      2024, 28(7): 1789-1801. DOI: 10.11834/jrs.20243249
      从光学到SAR:基于多级跨模态对齐的SAR图像舰船检测算法
      摘要:合成孔径雷达(SAR)舰船检测是近年来的研究热点。然而,与光学图像不同,SAR成像的特点会导致不直观的特征表示。此外,由于SAR图像数据量不足,现有的基于大量标记SAR图像的方法可能难以达到较好的检测效果。为了解决这些问题,本文提出了一种基于多级跨模态对齐的SAR图像舰船检测算法MCMA-Net(Multi-level Cross-Modality Alignment Network),通过将光学模态中丰富的知识迁移到SAR模态来增强SAR图像的特征表示。该算法首先设计了一个基于邻域—全局注意力的特征交互网络NGAN(Neighborhood-Global Attention Network),通过对骨干网络的浅层特征采用邻域注意力机制进行局部交互、对深层特征采取全局自注意力机制进行全局上下文交互,在兼顾全局上下文建模能力的同时,提升局部特征的编码能力,使得网络在不同层级更合理的关注相应的信息,从而能够促进后续的多级别模态对齐。其次,本文设计了一个多级模态对齐模块MLMA(Multi-level Modality Alignment),通过从局部级别到全局级别再到实例级别的对两种模态不同隐含空间中的特征进行对齐,促进模型有效地学习模态不变特征,缓解了光学图像和SAR图像之间的模态鸿沟,实现了从光学模态到SAR模态的知识传输。大量的实验证明我们的算法优于现阶段的检测算法,取得了最好的实验结果。  
      关键词:遥感;SAR;目标检测;跨模态;特征对齐;注意力机制   
      394
      |
      462
      |
      0
      <HTML>
      <网络PDF><Enhanced-PDF><Meta-XML>
      <引用本文> <批量引用> 54654173 false
      发布时间:2024-07-31
    • [{"title":"面向遥感图像目标感知的群目标检测框架","chapter":"1 引言","content":"遥感技术是获取大规模地理信息的重要手段,随着遥感图像获取技术的不断改进和发展,遥感图像被广泛应用于土地利用、城市规划、交通监测、灾害防治、生态保护(Chen等,2006;Lenhart等,2008;Liu和Wu,2016;Lopez和Frohn,2017;李强 等,2022)等众多民用领域。在遥感图像中,地物目标是最关键的信息之一,包括建筑物、道路、水体、森林等。然而,由于遥感图像具有分辨率高、数据量大、复杂多样等特点,传统目标检测方法已经无法满足对大规模遥感图像数据的自动化处理需求,因此需要开发高效、准确、自动化的遥感图像目标检测技术。遥感目标检测主要目的是从遥感图像中自动检测出目标物。目前,遥感目标检测已经取得了显著的研究成果,如基于深度学习的目标检测算法和多源遥感数据融合技术等,但仍然存在一些问题,如遥感图像中目标物种类繁多、光照和天气等因素的干扰以及遥感图像分辨率低等。因此,如何提高遥感目标检测的准确率和效率,是当前遥感目标检测研究亟待解决的问题。现有遥感图像目标检测方法主要从以下3个角度来提升性能:(1)增强特征鲁棒性,能够提高检测的性能和稳定性,使得算法在不同的场景和条件下都能够准确地识别目标,现有手段主要有多尺度特征融合,多模态特征融合及注意力机制。代表性算法有ICN(Azimi等,2019),CAD-Net(Zhang等,2019),DRN(Pan等,2020)和改进的CenterNet(田壮壮 等,2023)。ICN提出了一个带多个不同尺度卷积核的级联网络来提取鲁棒的多尺度特征,以提升检测精度。CAD-Net利用注意力调制特征以及全局和局部上下文来解决从遥感图像中检测目标的挑战。DRN提出了一个由特征选择模块和动态优化头组成的动态优化网络,它能够自动调制感受野并以对象感知的方式动态地改进检测效果。(2)改善损失传导机制,从这方面可以提高网络对目标的检测准确度和鲁棒性。其中,多尺度损失,联合损失,梯度裁剪应用广泛,代表性算法有RetinaNet(Lin等,2017),DAL(Ming等,2021)和R3Det(Yang等,2021)。DAL提出了一种动态锚点学习方法,利用新定义的匹配度算法来综合评估锚点的定位潜力,并进行更有效的标签分配。R3Det提出了一个端到端的精细化单级旋转检测器,通过使用从粗到细粒度的渐进回归方法来快速准确地检测目标。(3)从语义级提升检测性能,能够利用更高级别的语义信息,包括目标物体的形状、大小、方向和背景等因素来提高遥感目标检测的准确性和鲁棒性。代表性算法有ROI Transformer(Ding等,2019),CenterMap(Wang等,2021)和Mask-OBB(Wang等,2021)。CenterMap将边界框回归转换为中心概率图预测问题,从而在很大程度上消除了目标定义和背景像素上的模糊性。Mask-OBB将边界框回归转换为像素级分类问题,这可以在很大程度上消除歧义。上述方法虽然取得了较好的检测精度,但仍存在一些问题。增强特征鲁棒性可以普遍提高检测的性能和稳定性,适应更多的场景,而针对目标小而密集的场景表现得不够出色。改善损失传导机制可以提高网络对目标的检测准确度和鲁棒性,而无法提高小目标的召回率。同时,现有的语义关系联合上下文背景信息,忽略了周围前景信息可能带来的影响,因此需要更高级别的语义信息来提高检测的准确性。本文通过对现有算法分析发现造成上述问题的根本原因是单目标检测因其受限的感受野和内在的学习机制始终无法充分地利用上下文信息。因此,本文创新性地构建了群目标检测框架,首先提出群目标的概念定义,并采用搜索式自动化标注设计了群目标自动化标注方案,最后提出了一个群目标检测算法,旨在充分挖掘多个相同或者不同类型目标之间的上下文关联信息,对同属一个群体的目标进行关联,从而更进一步地提升检测精度。","result":"介绍了遥感技术在民用领域的广泛应用,指出了遥感图像目标检测的重要性和挑战。遥感图像具有高分辨率、大数据量和复杂性,传统目标检测方法已不适用。现有研究通过增强特征鲁棒性、改善损失传导机制和提升语义级检测性能来提高检测准确率和效率。然而,现有方法在小目标检测、召回率和利用上下文信息方面仍存在不足。本文提出了群目标检测框架,定义了群目标概念,设计了自动化标注方案,并提出了群目标检测算法,以挖掘目标间的上下文关联信息,提升检测精度。","language":"zh"},{"title":"面向遥感图像目标感知的群目标检测框架","chapter":"2 群目标检测框架","content":"2.1 群目标的概念定义传统的目标检测算法是独立地对每个目标进行逐一定位,忽略了多个相同或不同类型目标之间的上下文情景信息,空间位置信息,而群目标检测不是独立地对每个目标进行逐一定位,能够充分挖掘多个相同或者不同类型目标之间的上下文情境信息,对不同位置的目标进行关联分析。本文提出通过检测群目标,将单目标在空间上加以约束,从而提升检测效果。一般来讲,群目标可以定义为:在表观形状、空间位置等方面具有相符性的多个目标联合体被称为一组群目标。群目标既可以包含不同类型、但相互关联的多个目标,也可以包含同一类型多个实例联合在一起的多个目标,可以根据不同的目标特性、关联关系及应用场景进行定义。在具体实践中,群目标检测需要考虑目标之间的关联性和群体结构,即同时检测出包含多个目标实例的群目标整体,并识别它们之间的群体关系或群体属性。针对本文关注的遥感图像目标感知应用场景,基于以下两个方面给出群目标的定义:(1)空间接近:当不同目标间的距离非常接近时,这些目标无论是否属于同一类别都可以被视为一个群体。如图1(a)所示,右下角的小车和飞机排列紧密,两类物体共同组成群目标。(2)类别相同:当目标之间属于相同的类别或者具有相似的特征时,这些目标即使不符合空间接近也可以被视为一个群体。如图1(b)所示,所有的小车组成群目标,所有的飞机组成群目标。(a)空间接近 (b)类别相同(a) Spatial approach (b) Same category图1群目标两种定义方式Fig. 1Two definition of group object上述两种定义方式对群目标的侧重点有所不同,第1种定义方式侧重于空间上的距离关系,而第2种定义方式侧重于目标间的语义关联。对比两种定义方式,空间接近更符合实际情况,因此本文将基于空间接近的方式进行标注。2.2 群目标自动化标注方案2.2.1 聚类式自动化标注基于上述群目标的第一种定义,即空间接近,本文在已有目标检测实例标注的基础上设计了群目标自动化标注方案,以DOTA-v1.0数据集为例,标注结果如图3所示。本文基于Kmeans聚类算法(易茹,2020)在已有数据标签上进行标注,Kmeans算法根据给定的分类数量随机选取一定簇的数量进行聚类,而在遥感数据集中,目标大小及数量不是固定的,因此需要根据空间距离分布和数量大小动态地调整分簇数量。具体来说,计算每张图片最远两个目标间的距离dis,按照以下逻辑计算分类数量group_num。具体计算过程如下:当disdis2,若numnums2,group_num=5,其余情况group_num=4;如果dis>dis1且nums1,group_num=2,若num>nums2,group_num=4,其余情况group_num=3。(a)随机标记 (b)距离最远标记 (c)平均距离最远标记 (d) 标注结果(a)Random labelling (b)Farthest distance labelling (c) Farthest average distance labelling (d) Labelling result图2群目标自动化标注流程Fig. 2Automatic labelling process of group object图3聚类式标注示例Fig.3Examples of K-means labelling其中,dis1、dis2代表距离阈值,nums1、nums2代表数量阈值,得到分类数量后,为了避免K-means算法随机选取分簇中心造成分类结果重叠分布,相互覆盖,本文在分簇中心点选择上做出调整,K-means方法一次性随机选取n个点作为初始分簇中心,不同的是,本文首先选取一个中心点,然后计算其和所有其他点的相对距离,选取最远的点作为下一个中心点,然后再次遍历所有其他点到已有中心点的距离平均值,选取平均距离最大的点作为下一个中心点。如图2所示,首先随机选取一点A(图2(a)),计算其他目标与之距离,得到距离最远的B(图2(b)),然后计算剩余目标与已有中心点的距离,得到平均距离最大的C点(图2(c)),由此得到3个聚类中心进行聚类,最终群目标标注如图2(d)所示。针对不同数据集,需要根据其分布动态调整自适应分簇阈值区间。基于此标注方法,得到的标注结果如图3所示。2.2.2 搜索式自动化标注由于聚类方法的初始点选取是随机的,聚类结果存在一定的不确定性,因此本文提出了第2种聚类方法,搜索式聚类。受图论思想启发,结合空间接近的定义,本文制定了搜索式群目标标注的规则,即对于任一目标A,如果在以其中心点为圆心,半径为r的范围内,存在另一个目标B,那么A和B共同归属于一个群目标。对于一张图片而言,遍历所有的目标,计算每一个目标和哪些目标的距离在规定范围内,记录所有的符合条件的目标,然后根据这些目标生成矩形框,标注为集群,结果如图4所示。相比于聚类式方法,搜索式方法更加简单直观,具有更好的确定性,只要给定搜索距离,分类结果就是确定的,而聚类方法初始一个点的选择是随机的。因此,本文后续的实验选用了第二种搜索式方法进行标注,并在消融实验证明了该方法的优越性,同时对搜索距离进行了定性分析。图4搜索式标注示例Fig.4Examples of search labeling2.3 群目标检测算法2.3.1 概述与传统单一目标检测不同,群目标检测在大范围上预测一群目标的位置,为了利用群目标带来的空间位置约束,使单目标检测向群目标靠拢,本文提出了对称区域卷积神经网络(Dual-RCNN),利用群中心约束关联群目标和单目标的位置信息。算法整体流程如图5所示,给定一个输入的图像,通过骨干特征提取网络获得多尺度特征,然后将特征输入到上下两个并行检测分支,即群目标检测分支和单目标检测分支。每个分支与传统检测算法Faster RCNN(Girshick,2015;Ren等,2017)类似。每个分支除了预测群目标和单目标之外,本方法还设计了群中心约束,对上下2个分支的提议检测框结果进行匹配,利用中心点偏移量在空间位置上加以约束,以优化单目标以及群目标分支检测结果。图5群目标检测算法框架图Fig. 5Framework of group object detection2.3.2 单目标分支该分支由RPN,ROIpooling以及RCNNPredictor构成。RPN由AnchorGenerator及RPNHead构成,RPNHead由两个3×3的卷积分支构成,分别预测由AnchorGenerator产生的锚框的类别(前景或背景),以及该锚框的修正参数(中心点偏移量,长宽偏移量),最后RPNHead和AnchorGenerator会得到含有目标的提议框,由于目标大小不同,得到的提议框大小是变化的。通过ROIpooling将维度不一致的提议框转化成统一大小的特征向量,然后做展平处理,之后通过RCNNPredictor进行预测,该模块主要由几个全连接层构成,得到最终的检测类别和检测框位置。2.3.3 群目标分支群目标分支和单目标分支组成类似,同样由RPN,ROIpooling以及RCNNPredictor构成。不同的地方在于群目标分支对应的地面实测为群目标标注。2.3.4 群中心约束为了充分利用群目标提供的空间信息,本文在算法中引入了群中心约束,从群目标检测分支得到群目标预测提议框,从单目标检测分支得到单目标预测提议框,获得这两个结果后,对两者进行匹配,为每个单目标匹配对应的群目标,即该单目标归属于哪个群。具体匹配规则为,针对每一个单目标,计算所有群目标中心点和该单目标中心点的绝对距离,距离最近的群目标为该单目标的唯一匹配(图6)。图6单目标匹配群目标示意图Fig. 6Single object matches group object如图6所示,对于一个单目标来说,在o1,o2,o3,o4,o5这5个距离中,o2最小,所以该单目标就与o2对应的群目标匹配。匹配过程中,每个单目标匹配一个群目标,而每个群目标会匹配多个单目标。匹配完成后,计算所有单一目标与其所匹配的群目标之间的中心点相对偏移量,让所有单目标预测该偏移(对应框架图中OffsetPredictor)。并计算匹配的单目标和群目标中心点的绝对距离,然后除以其所匹配的群目标框的对角距离,得到相对偏移量。按照同样的方法计算真实的相对偏移量,相对偏移损失计算公式如下: (1)式中,代表预测的偏移值,代表真实的偏移值,N代表预测的单目标提议数量。模型总的损失函数为 (2)式中,代表RPN部分的提议框分类和回归损失,代表RCNNPredictor部分的分类和回归损失。计算公式如下: (3)式中,是Softmax loss,用于分类锚框属于前景还是背景;为Smooth L1 loss,用于修正锚框,前面乘一个表示只回归有目标的框;表示网络预测出来第i个锚框是目标的概率,表示对应真实值。若第i个锚框与某个真实目标的交并比>0.7,则=1;若IOU<0.3,则=0;表示参数化坐标向量,表示预测框和锚框之间的偏移;表示对应真实偏移。的表示方法和相同,不同的在于回归的类别数量不同。2.3.5 训练给定一个输入大小为1024像素×1024像素×3通道的图片,经过骨干特征提取网络后,获得5个多尺度特征,经过RPN网络,对所有提议框筛选得到分数排在前2000的提议框。得到2000个提议之后,在训练阶段,从2000个提议里随机选取256个正样本,256个负样本用于后续的训练,然后通过ROI融合所有尺度,得到(批大小,512,7,7)的特征,最后通过RCNNPredictor得到输出结果,包括512个样本的分类结果(512,类别数)以及每个样本的检测框位置参数(512,4)。2.3.5 推理在推理过程,移除偏移分支,直接得到单目标和群目标提议,结合预测的回归参数计算最终的bbox坐标,移除背景信息和低概率小尺寸目标,然后进行NMS处理,返回最终预测结果。","result":"介绍了面向遥感图像目标感知的群目标检测框架,包括群目标的概念定义、自动化标注方案、检测算法的概述和详细流程。\n\n群目标检测框架与传统目标检测不同,它通过检测群目标,将单目标在空间上加以约束,以提升检测效果。群目标可以定义为在表观形状、空间位置等方面具有相符性的多个目标联合体,可以包含不同类型、但相互关联的多个目标,也可以包含同一类型多个实例联合在一起的多个目标。\n\n自动化标注方案包括聚类式和搜索式两种方法。聚类式方法基于Kmeans聚类算法,在已有数据标签上进行标注,通过动态调整分簇数量来适应遥感数据集中目标大小和数量的不确定性。搜索式方法则通过遍历所有目标,计算每个目标与其他目标的距离,生成矩形框标注为集群,具有更好的确定性。\n\n群目标检测算法采用对称区域卷积神经网络(Dual-RCNN),利用群中心约束关联群目标和单目标的位置信息。算法包括单目标分支和群目标分支,每个分支都由RPN、ROIpooling和RCNNPredictor构成。通过群中心约束,对两个分支的提议检测框结果进行匹配,优化检测结果。\n\n训练过程中,从筛选得到的提议框中随机选取正负样本进行训练,通过ROI融合所有尺度的特征,最后通过RCNNPredictor得到输出结果。推理过程中,移除偏移分支,直接得到单目标和群目标提议,结合预测的回归参数计算最终的bbox坐标,进行NMS处理后返回预测结果。","language":"zh"},{"title":"面向遥感图像目标感知的群目标检测框架","chapter":"3 测试实验","content":"为了验证本方法的有效性,本文在目前最热门的DOTA-v1.0(Xia等,2018;Ding等,2022)数据集上进行了广泛实验。3.1 数据准备DOTA-v1.0数据集包含了2806张来自不同传感器和平台的航空影像,每张影像大小都在4000像素×4000像素内,分为飞机(PL)、舰船(SH)、储罐(ST)、棒球场(BD)、网球场(TC)、篮球场(BC)、田径场(GTF)、海港(HA)、桥梁(BR)、大型车辆(LV)、小型车辆(SV)、直升机(HC)、环岛(RA)、足球场(SBF)、游泳池(SP)15个类别,总计188282个目标,每个目标都标记为一个带方向的边界框。同时,对每张图片添加了额外的群目标标注,每张图像被分成1—5个集群,每个集群以矩形框的形式进行标注。本文使用训练集和验证集进行训练。通过将测试结果发送到DOTA的在线评估服务器来获得最终的检测精度。3.2 训练参数配置本方法使用4张英伟达3090显卡来进行训练,训练中单卡批大小为1,采用同步批归一化,测试时也是在1张3090显卡进行,实验在mmdetection开源框架上进行。在训练过程中统一使用水平、垂直及对角翻转的图片增强。本方法采用SGD优化器优化整个网络,动量为0.9,权重衰减为0.0001。将原始图像裁剪成1024像素×1024像素,裁剪的步长设置为824,即两个相邻部分之间的像素重叠为200。对于多尺度训练和测试,首先在0.5、1.0和1.53个尺度上调整原始图像的大小。训练12个epoch,初始学习率设置为0.005,并在epoch为8和11时降为原有的十分之一。3.3 实验结果及分析本文将提出的群目标检测框架和其他12种主流的旋转物体检测框架进行了对比,结果如表1所示。注: 加粗数据的显示代表该列的最大值。表1DOTA数据集检测精度对比Table 1Comparison of detection accuracy on DOTA dataset /%可见在DOTA-v1.0数据集上,该方法超越了所有参与对比的其他方法,获得了78.2%的mAP。本文算法Dual-RCNN的可视化结果如图7所示。可见该方法在困难的情境下发现了原来未检测到的目标,提高了召回率。图8为该算法在有无群中心约束情况下的检测结果对比,可见在小目标密集的情况下,该方法检测到了更多小目标,更好地关注到了小目标周围区域的其他小目标,加强了目标与目标之间的位置信息关联。同时,本文对比了一些算法在群目标检测上的精度,结果见图9。可见在群目标和单目标的相互优化下,本算法在群目标检测上表现地更加出色。本文通过对15种类别目标尺度分析,统计了所有标注种类的平均长宽,得到像素统计结果如下:飞机107、舰船33、储罐43、棒球场135、网球场104、篮球场117、田径场231、海港103、桥梁41、大型车辆39、小型车辆24、直升机65、环岛145、足球场259、游泳池45。本文认定长宽小于50的类别为小目标,因此在统计后将桥梁,小车,大车,轮船,存储罐,泳池归类为小目标,其余为大目标。由此得到的大小目标检测的mAP如表2所示,结果表明,本文提出的的群目标检测在面对小目标时有着更加突出的表现,通过群目标检测很好的提高了小目标检测准确率和召回率。图7Dual-RCNN在DOTA数据集的可视化检测结果(群目标 单目标)Fig.7Visualization of Dual-RCNN on DOTA dataset. Group prediction with blue rectangle, single prediction with other color图8群约束对检测结果的影响对比Fig. 8Visualization comparison of constraint图9不同方法的群目标检测精度对比Fig. 9Comparison of object detection results of different methods on group object detection表2不同尺度目标的检测精度对比Table 2Comparison of object detection results of different scales%3.4 消融实验3.4.1 群中心约束分析验证群中心约束对检测结果的影响如表3所示。可见在有群中心约束监督的情况下,检测精度提升了1.7个百分点。这表明,群中心约束在空间范围上对单目标进行约束,提高了目标检测精度。表3群中心约束对mAP的影响Table 3Effect of group center constraint on mAP /%3.4.2 标注方式分析本文对提出的两种标注方法进行了实验比较。针对聚类式标注,group_num的取值首先与分类的最大集群数量有关,基于此我们在考虑分类的最大集群数量时进行了实验验证,固定其他参数不变,调整最大分类数量,得到实验结果如图10所示,由此可见,选择最大分类数量为5是最合适的。然后,统计得出在DOTA数据集中,平均每张图片包含67个目标,为了保证每张图片群的个数不唯一,第一个阈值nums1不宜过大,限定其在平均数量的1/4范围内,nums1可选值为5、10和15。阈值nums2不超过平均数量的1/2,nums2可选值为20、25、30和35。我们对这些取值进行组合实验,并得出了如表4的实验结果。因此,我们选择了nums1=15,nums2=25。最后实验结果如表5所示,其中,L代表图片对角线长,r代表搜索距离。聚类式标注方法在各种情况下的最好结果是77.42%,搜索式标注方法最好结果是78.21%,显著优于聚类式标注。搜索式具有更强的规律特点,仅取决于搜索距离,效果更好。图10群目标最大集群数量与Map相关性Fig. 10Correlation between group object quantity and Map表4不同nums参数的对比Table 4Results of different nums注:黑体表示最优结果。表5不同标注方式及距离参数对结果的影响Table 5Effect of different annotation methods and distance parameters on results3.4.3 群目标标注搜索距离分析对于搜索式标注方法,确定搜索距离是一个关键的选择,本文对不同的搜索距离进行了实验对比,结果如表5所示。可见搜索距离偏大和偏小都会阻碍群目标检测性能,因为当搜索距离偏小时,群目标框将会趋近于单目标框,搜索距离偏大时,一个标注将可能涵盖过多单目标,使模型的针对性下降。针对DOTA数据集图片尺度为1024像素×1024像素,实验确定搜索距离为75是最有效的。","result":"在DOTA-v1.0数据集上进行了广泛实验,验证了所提群目标检测框架的有效性。数据集包含2806张航空影像,涵盖15个类别,总计188282个目标。实验使用4张英伟达3090显卡,基于mmdetection框架,采用SGD优化器,训练12个epoch。实验结果显示,所提方法在DOTA-v1.0数据集上超越了其他12种主流旋转物体检测框架,获得了78.2%的mAP。Dual-RCNN的可视化结果表明,该方法在困难情境下提高了召回率。有无群中心约束的检测结果对比显示,该方法在小目标密集情况下检测到更多小目标,加强了目标间的位置信息关联。群目标与单目标检测精度对比表明,所提算法在群目标检测上表现更出色。对15个类别目标尺度的分析表明,所提群目标检测在小目标上表现更佳,提高了小目标检测的准确率和召回率。\n\n消融实验进一步分析了群中心约束、标注方式和搜索距离对检测结果的影响。群中心约束分析表明,引入群中心约束可提升1.7个百分点的检测精度。标注方式分析比较了聚类式和搜索式标注方法,结果表明搜索式标注方法效果更好,其规律特点更强,仅取决于搜索距离。搜索距离分析发现,搜索距离对群目标检测性能有显著影响,DOTA数据集上75像素的搜索距离最有效。","language":"zh"},{"title":"面向遥感图像目标感知的群目标检测框架","chapter":"4 结论","content":"本研究提出了一个面向遥感图像感知的群目标检测框架,旨在解决当前遥感图像感知中目标特征信息不足、准确率差的问题,针对小目标集群检测效果出色。主要结论如下:(1)提出群目标检测理念,并对群目标概念进行定义;(2)基于群目标定义,提出群目标自动化标注方法;(3)提出群目标检测算法Dual-RCNN,利用中心约束引导检测框回归。实验结果表明,相比于其他遥感目标检测算法,Dual-RCNN能够召回更多小目标,有效提升小目标检测精度。本文的研究使目标检测不再局限于单个目标,将集群信息利用起来,以缓解遥感目标分辨率低,准确率差的问题。然而,不同的定义方法及标注方式还是会对群目标检测产生一定的影响,在后续的研究中,将会对这些变量作进一步探索,以找到最佳方案,进一步地提高群目标检测能力。","result":"总结了面向遥感图像目标感知的群目标检测框架,提出了群目标检测理念,定义了群目标概念,并提出了自动化标注方法和Dual-RCNN检测算法。实验结果表明,该框架在小目标集群检测方面表现优异,有效提升了小目标检测精度。同时指出,不同的定义方法和标注方式对检测效果有影响,未来研究将进一步探索以提高检测能力。","language":"zh"}]
      张鸿伟,金磊,邹学超,方宇强,尹璐,赵健,兴军亮
      2024, 28(7): 1802-1811. DOI: 10.11834/jrs.20233263
      面向遥感图像目标感知的群目标检测框架
      摘要:光学遥感是航天侦察和地质勘测中的常用技术,拍摄得到的可见光图像能够提供非常丰富的信息,在目标监视、态势预判等方面都具有重要应用。近年来以轮船、飞机等物体检测为代表的光学遥感图像目标感知取得了显著进展,但对于目标尺度变化大,目标数量多而小的遥感图像目标感知场景中还存在巨大技术挑战,也就是在当前的光学遥感图像目标感知场景存在很多目标小并且多目标集中的情况,容易导致误检和漏检。为了解决现有遥感图像目标检测算法不同目标独立检测的内在低效性,本文提出了一种新的检测框架,即群目标检测,以期通过检测群目标的状态信息来缓解单一目标感知信息不足、可靠性差等问题,进而得到更为可靠的多目标检测结果。本文首先对群目标的概念进行定义,然后基于该定义提出了一种群目标自动化标注方案,在公开数据集上对原有标签进行分析,无需任何手动标注,就能得到含有群目标标注的注释信息。基于群目标自动化标注,本文提出了群目标检测算法,即在检测群目标的同时,利用群目标的空间约束提升单一目标检测结果。实验证明,与近年来的遥感图像检测算法相比,本文提出的群目标检测在最热门的大型遥感目标检测数据集DOTA上验证时,性能最佳。  
      关键词:遥感图像;目标检测;边界框;群目标;自动化标注;DOTA;目标感知;多目标   
      310
      |
      724
      |
      0
      <HTML>
      <网络PDF><Enhanced-PDF><Meta-XML>
      <引用本文> <批量引用> 45880315 false
      发布时间:2024-07-31
    • [{"title":"面向小目标检测的卫星视频跟踪算法","chapter":"1 引言","content":"多目标跟踪旨在检测和估计视频中多个目标的时空轨迹,在视觉领域有着广泛应用,如安防监控、自动驾驶、智能交通等。随着遥感技术的发展,通过卫星平台获得地球表面运动目标的视频数据,实时观测地球表面目标的运动轨迹和状态,在城市规划、交通监控、军事侦察等发挥着重要作用。主流的多目标跟踪算法主要解决监控视频或移动设备拍摄视频下的目标跟踪问题,由于卫星视频与监控视频存在巨大差异,导致现有多目标跟踪算法应用在卫星视频上的性能较差。卫星视频和监控视频存在如下差异:(1)成像距离和视角不同。在相同图像分辨率下,卫星视频下的目标尺寸更小,目标的细节特征不明显,而监控视频下的目标细节特征更加显著,但是存在严重的目标间的遮挡问题;(2)卫星视频的背景更加复杂多样。遥感场景变化多样,目标的检测容易受背景干扰,如云雾、舰船运动产生的尾流等,导致误跟和漏跟的可能。目前,主流多目标跟踪算法遵循基于检测的跟踪TBD(Tracking-By-Detection)范式,包含目标检测和帧间关联两个步骤。首先检测出每帧中目标可能出现的位置,然后根据检测出的候选目标位置建立时间上的关联匹配,实现目标运动轨迹关联。随着目标检测技术的发展,许多方法利用更强的目标检测器来提高多目标跟踪的性能,如RetinaTrack(Lu等,2020)、CenterTrack(Zhou等,2020)、TransTrack(Sun等,2021)、ByteTrack(Zhang等,2022)等。这些检测器通常用于检测自然场景下的目标,因此在监控视频下仍然可以很好地检测目标,然而由于遥感影像与自然场景下的影像存在巨大差异,这些检测器直接应用在遥感场景下无法取得很好的性能。遥感图像中的小目标是导致检测性能下降的因素之一,而针对遥感图像中的小目标,目前有很多改进方案用于提高小目标的检测能力,如使用浅层特征(Van Etten,2018)、生成对抗网络(Rabbi等,2020)、目标之间的度量(Xu等,2021;Wang等,2022)等。基于浅层特征检测小目标的方法最为简单直观,浅层特征能够保留小目标的特征,从而提高小目标的检测能力,但是会引入更大的计算量;基于生成对抗网络GAN(Generative Adversarial Network)的方法通过GAN生成高质量的目标图像,增强了小目标的特征,这种方法同样会引入额外的计算;基于度量的方法,虽然不会引入额外的计算,但仍没有解决小目标可用特征少的问题。数据关联阶段根据检测目标的特征计算目标和轨迹的相似度(特征相似度、IoU距离等),进而采取适当的匹配策略将检测目标和轨迹进行匹配。常用于计算相似度利用空间位置、运动信息以及外观特征等。Bewley等(2016)提出SORT (Simple Online and Realtime Tracking),结合目标的位置和运动信息,基于卡尔曼滤波预测轨迹在下一帧的位置,计算预测结果和检测结果的IoU距离作为相似度;Wojke等(2017)提出DeepSORT,在SORT的基础上加入重识别(ReID)模型,用于提取目标的外观特征,通过IoU相似度和外观特征相似度关联轨迹和检测目标;Zhou等(2020)使用目标和轨迹的中心位置来计算两者的相似度;Zhang等(2022)提出ByteTrack,在匹配过程中考虑低置信度的检测结果,只使用目标的运动信息和空间位置有效地缓解了遮挡以及小目标的问题;Du等(2023)提出StrongSORT,基于DeepSORT的架构,采用更强特征提取器和更加鲁棒的运动模型,此外还提出Appearance-Free Link model和Gaussian-Smoothed Interpolation模块,分别用于建模轨迹的全局联系和轨迹插值,提高关联的准确度。基于目标位置和运动信息的模型通常比较简单,但无法处理复杂的情况,如遮挡问题,适用于短时跟踪;而基于外观特征的匹配对遮挡问题更鲁棒,更适用于长时间的跟踪。轨迹和目标的匹配问题可以视为二分图匹配问题,通常采用匈牙利算法(Hungarian Algorithm)(Kuhn,1955)解决,随着深度学习的发展,基于深度神经网络计算匹配关系成为一种趋势。Pang等(2021)提出一个拟密集对比学习(Quasi-Dense Similarity Learning)学习目标的嵌入特征,通过双向的Softmax操作计算轨迹和检测目标的嵌入特征相似度,然后通过搜索最近邻完成匹配过程;Jiang等(2019)提出利用图神经网络来学习出轨迹和目标的匹配关系;Chu等(2021)提出一个图Transformer模型TransMOT,TransMOT将轨迹和检测结构建模成无向图,利用图Transformer编码器编码轨迹的时空信息,然后通过图Transformer解码器建立轨迹和检测的匹配关系。基于匈牙利算法的匹配方法简单高效,是多目标跟踪算法中主流的匹配算法,而通过深度神经网络计算出的匹配关系虽然准确性更高,但是其计算量更大,难以满足实时性的需求。由于缺少高质量的公开卫星视频多目标跟踪数据集,现有的卫星视频多目标跟踪研究较少。Feng等(2021)提出Spaital Motion Information-Guided Network(SMTNet),用双分支的Long Short-Term Memory(LSTM)分别计算轨迹的运动特征以及空间特征,SMTNet基于已有的轨迹预测一个虚拟位置,最后通过匈牙利算法将检测结果以及虚拟位置与轨迹匹配;Wu等(2021a)使用Yolov3作为检测器,利用多粒度网络MGN(Multiple Granularity Network)提取更加丰富的目标外观信息,以提高关联的准确性;Wu等(2022)提出SFMFMOT,首先利用低速特征辅助检测网络检测运动目标,然后在关联阶段基于外观特征和空间信息匹配,最后利用运动特征消除静态误跟;He等(2022)提出一个联合检测与关联的模型TGraM,通过图卷积网络构建目标的时空关系,在训练过程基于多任务对抗梯度学习解决检测和ReID任务不一致的问题。综上所述,为解决目前卫星视频中小目标的跟踪问题,本文提出面向小目标检测的卫星视频多目标跟踪算法。首先,针对卫星视频中的小目标检测问题,在检测网络中增加一个预测分支,提高预测特征图的分辨率,保留小目标的细节特征,还利用注意力机制进一步增强小目标的细节特征;其次,利用Transformer的自注意力机制,编码全局的上下文信息,增强目标之间的联系,提高网络对于目标的响应,抑制复杂的背景;最后,为确保检测出的目标能够与轨迹匹配,在关联阶段考虑低置信度的检测结果,以期提高跟踪性能。","result":"介绍了多目标跟踪技术在视觉领域的广泛应用,特别是在卫星视频跟踪中的重要性。由于卫星视频与监控视频在成像距离、视角和背景复杂性上的差异,现有多目标跟踪算法在卫星视频上的应用面临挑战。文章概述了基于检测的跟踪(TBD)范式,包括目标检测和帧间关联两个关键步骤,并讨论了目标检测技术的发展,如RetinaTrack、CenterTrack等,以及它们在遥感场景下的应用限制。针对遥感图像中小目标检测的挑战,提出了多种改进方案,包括使用浅层特征、生成对抗网络和目标间度量等方法。此外,还探讨了数据关联阶段的相似度计算和匹配策略,如SORT、DeepSORT、ByteTrack等算法,以及基于深度学习的方法,如Quasi-Dense Similarity Learning、图神经网络和图Transformer模型。最后,指出了现有卫星视频多目标跟踪研究的局限性,并提出了本文面向小目标检测的卫星视频多目标跟踪算法,包括检测网络的改进、Transformer自注意力机制的应用,以及关联阶段的优化,以提高跟踪性能。","language":"zh"},{"title":"面向小目标检测的卫星视频跟踪算法","chapter":"2 研究方法与原理","content":"现有多目标跟踪算法无法有效解决卫星视频的目标跟踪问题,图1展示了卫星视频与监控视频存在的显著差异:(1)卫星视频中的目标尺寸更小,可用特征少,给检测带来难度;(2)由于小目标和遮挡等问题导致目标置信度更低,使得关联难度更大。因此,本文提出一种卫星视频的多目标跟踪算法,具体流程如图2所示:(1)针对卫星视频中目标的特点设计小目标检测器YOLOS(YOLOX for small object),检测卫星视频中第T帧图像的目标;(2)采用一种两步关联策略,根据置信度不同设计两种不同的匹配策略。图1监控视频和遥感卫星视频的差异Fig. 1Differences between surveillance video and remote sensing satellite video图2多目标跟踪算法流程Fig. 2Overview of proposed MOT method2.1 小目标检测器YOLOX(Ge等,2021)是无锚框的一阶段目标检测算法,其主干网络为DarkNet53,颈部网络为PANet, YOLOX的检测头为解耦头,能进一步提高网络的检测性能。此外在YOLOX采用了一种更高效的SimOTA算法,在训练过程中自动为每个真值(ground-truth)分配正负样本,从而解决正负样本不均衡问题。尽管YOLOX取得良好的性能,但是其在小目标上的检测结果仍然比较低,在COCO test-dev数据集(Lin等,2014)上的AP指标仅为31.2%。因此,本文提出来解决卫星视频中的小目标检测问题,YOLOS结构图如图3所示:(1)在YOLOX中增加一个预测分支,得到更高分辨率的特征图,从而更好地保留小目标的特征,此外,还利用CBAM增强小目标的细节特征,提高小目标的检测能力;(2)为了更好地检测位于复杂背景中的目标,利用Transformer在目标之间建立更加鲁棒的关联,进一步提高检测卫星视频中目标的能力。图3YOLOS结构Fig. 3Architecture of YOLOS2.1.1 主干网络当目标位于某些复杂背景中,如云雾、波浪、舰船运动产生尾流等,目标所在的局部区域很难为识别目标提供有效的信息,而图像中的目标存在相似性,如大小、形状、颜色等特征,因此利用全局的目标信息能够更好地识别位于复杂背景中的目标。受Transformer(Vaswani等,2017)的启发,本文利用Transformer中的编码器来为特征图提供全局的上下文信息。Transformer编码器模块如图4所示,该模块包含两个子层,一是多头注意力层(Multi-Head Attention),该层通过自注意力机制建模图像中不同位置的关系;二是多层感知机(MLP),用于变换维度,提高模型表达能力。两个子层都引入了层标准化(layerNorm)和Dropout层,并通过残差结构连接。为了在特征图中融入全局的上下文信息,在主干网络的最后一个模块使用Transformer编码器,其位置和结构如图3中的Transformer Dark5模块所示。这样做一是可以减小使用Transformer带来的计算量和内存的增加,二是高层的特征图包含丰富的语义信息,借助Transformer的自注意力机制,加强全局目标间的联系,提高网络对位于复杂环境下目标的响应,增大目标与背景之间的差异,进而提高网络的检测能力。图4Transformer编码器模块Fig. 4Diagram of Transformer encoder2.1.2 卷积注意力颈部网络尽管使用Transformer能够间接提高网络的检测能力,但是卫星视频中存在大量小目标,而且由于成像距离较大,卫星视频中的目标视觉特征都不明显,这就会导致大量的误检和漏检。因此,本文利用注意力机制来增强目标的特征,提高检测器整体的检测能力。YOLOX的每个颈部网络模块包含一个卷积层和CSP模块(Cross Stage Partial Module,跨阶段局部连接模块),在CSP模块前将多个特征图进行连接,本文在颈部网络中的每个Neck模块最后添加了一个卷积注意力模块(CBAM)(Woo等,2018),每个模块的结构如图3中的CBAM Neck1_1所示。CBAM是一个轻量级的注意力模块,通过空间注意力和通道注意力来对特征进行增强。卫星视频中大部分区域为城市、海洋等地理区域,使用CBAM模块能够让检测网络更好地关注目标所在的区域。2.1.3 检测头低分辨率的高层特征图包含丰富的语义信息,但缺少细节信息。相较之下,高分辨率的低层特征图能够保留小目标的细节,所以使用高分辨率的特征图对检测小目标是非常必要的。如图3所示,本文增加了一个预测分支解耦头1(Decoupled Head 1),该预测分支的输入为卷积注意力颈部网络中的低层特征图,其下采样率为4,相较于其他预测分支能够得到高分辨率的特征图,该特征图对小目标更敏感,能够显著提升网络对卫星视频中小目标的检测能力。2.1.4 损失函数每个解耦头包含回归和分类分支,分别用于回归目标的边界框和分类,对于回归边界框分支,采用GIoU损失函数(Rezatofighi等,2019),对于分类分支采用交叉熵损失函数。2.2 关联算法由于小目标尺寸小、细节特征不明显的特点,卫星视频中的小目标在检测阶段的预测置信度比较低,如果在数据关联阶段中将低置信度的检测结果视为背景,就会造成大量小目标的漏跟,显然在遥感卫星场景下是不适用的。因此,本文采用更加关注低置信度检测的弱数据关联算法Byte(Zhang等,2022)。关联算法1具体流程如下:输入:卫星视频,检测器,检测置信度阈值和,卡尔曼滤波器,轨迹初始化阈值。输出:卫星视频目标轨迹。具体步骤如下:1. for in do;2. 检测器检测当前帧;3. 根据检测置信度阈值和划分检测结果;4. 基于预测轨迹在第帧的位置;5. 基于IoU相似度,关联和;6. 未匹配的高置信度检测结果;7. 未匹配的轨迹段;8. 基于IoU相似度,关联和;9. 未匹配的轨迹段;10. 从中删除;11. 基于阈值将初始化为新的轨迹;12. return 。","result":"介绍了一种面向小目标检测的卫星视频跟踪算法。现有多目标跟踪算法难以应对卫星视频目标跟踪的挑战,如目标尺寸小、特征少、置信度低等。为此,本文提出了一种新的算法,包括小目标检测器YOLOS的设计和两步关联策略。YOLOS基于YOLOX算法,通过增加预测分支和CBAM模块,以及利用Transformer编码器提供全局上下文信息,增强了小目标的检测能力。此外,还改进了卷积注意力颈部网络和检测头,提高了对复杂背景下小目标的检测性能。在关联算法方面,采用了弱数据关联算法Byte,特别关注低置信度检测结果,以避免小目标漏跟问题。整个算法流程包括输入卫星视频、检测、关联、轨迹初始化和更新等步骤,旨在实现更准确的卫星视频多目标跟踪。","language":"zh"},{"title":"面向小目标检测的卫星视频跟踪算法","chapter":"3 数据结果处理与分析","content":"3.1 实验设置3.1.1 实验数据和评价指标本文所用的实验数据来自2021高分遥感图像解译大赛,使用的数据集为高分辨率光学卫星视频中多目标跟踪数据集AIR-MOT((https://github.com/HeQibin/TGraM[2022-03-07])(He等,2022),数据由吉林一号光学卫星采集,图像场景包括不少于15个国内外常用民用机场、港口等。该数据集中包含两类目标,飞机和舰船,训练集共80个由图像序列组成的视频,图像的分辨率为1080×1920,数据集示例如图5所示。由于训练集中有21个视频无目标标注,因此在实验中将有标注的59个视频的70%划分为训练集,用于训练模型,30%划分为测试集,用于测试模型的有效性。图5AIR-MOT数据集示例Fig. 5Examples of the AIR-MOT dataset试验测试使用的评价指标为MOTA(Bernardin和Stiefelhagen,2008),其计算公式如下: (1)式中,表示第帧中目标漏检的个数,表示第帧中目标误检的个数,表示第帧中目标ID发生切换的次数,表示第帧中真值(ground-truth)的个数。3.1.2 对比方法表1为对比实验选用的方法。联合检测与跟踪JDT(Joint Detection and Tracking)方法是指将检测和跟踪联合,进行端到端地学习训练。MSOT-CNN(Bahmanyar等,2019)、Yolov3+MGN(Wu等,2021a)以及DSFNet+SORT(Xiao等,2022)是应用在遥感场景下的多目标跟踪算法,所有对比方法的参数设置都遵循原论文使用的参数。表1对比实验选用的方法Table 1Comparative methods used in the experiments3.2 实验数据本文所提算法通过Pytorch框架实现,硬件环境为:Ubuntu18.04操作系统,Intel Xeon 5220R CPU,NVIDIA RTX3090 GPU显卡。基于SGD优化器,YOLOS在训练集上训练90个epoch,初始学习率为每张图像0.0000625,在训练过程中采用预热(warmup)和余弦学习率衰减策略。数据增强采用Mosaic(Bochkovskiy等,2020)和MixUp(Zhang等,2017),此外采用了强的旋转数据增强,即图像的旋转角度范围设为,在训练的最后20个epoch,关闭所有的数据增强。训练采用多尺度训练的方法,图像最长边包含的像素个数范围为1120—1632,batch size大小为4。和分别设置为0.1和0.3,设置为0.6。3.3 消融实验结果分析为了验证提出的各项改进对于跟踪性能的影响,本文采用高分辨率光学卫星视频中多目标跟踪数据集的测试集进行消融实验,结果如表2所示。在增加一个预测分支(解耦头1)后,跟踪性能有一个明显的提升,MOTA指标从49.6%增加到52.0%;在使用了强的旋转数据增强后,MOTA指标提升非常大,本研究的分析发现遥感图像中的目标会呈现出各种不同的角度,使用强的旋转数据增强能够使网络学习到目标在不同方向的特征,从而提高网络的泛化性能;在上述基础上增加CBAM注意力机制后,增强了目标的特征,MOTA指标也有一定程度的提升;通过Transformer将全局的上下文信息融合到特征中也能提升跟踪性能。由于在检测网络中增加了一个预测分支以及使用了Transformer,本文提出的方法相较于Baseline,处理速度有所降低,Baseline的处理速度能够达到15 FPS,本文的方法仅为10 FPS左右。注: √表示使用这个模块或方法。↑表示越高越好,↓表示越低越好。表2检测器的消融实验Table 2Ablation study on detector为了更直观地展示各项改进的有效性,本研究可视化了网络最后一层的特征响应图,结果如图6所示。图6(a)为测试集中的某一帧图像,图中红色越深的区域代表网络对于该区域的响应值越高。图6(b)—(e)依次展示了解耦头1到解耦头4的特征图的可视化结果,其特征图的分辨率依次减小。可见:随着预测舰船目标的特征图分辨率增加,网络对于单个小目标的响应值更高,更容易检测出小目标。图6(f)和(g)表示分别表示在增加CBAM和Transformer后,解耦头1特征图的可视化结果。可见在使用了CBAM注意力后,只有目标所在位置的响应值高,网络对小目标的注意权重更大,这有利于小目标的检测;在增加Transformer编码上下文信息后,特征图中目标与背景之间的差异更大,进一步提高小目标的检测能力。图6视频帧及其特征图可视化结果(图中红色越深的区域代表网络对于该区域的响应值越高)Fig. 6Video frame and its feature maps visualization results (The deeper red area in the image, the higher network’s responsevalue for that region)本文还验证了弱数据关联的有效性,采用了两个实验,一是只使用高置信度的检测结果与轨迹进行匹配,二是同时考虑高置信度和低置信度的检测结果,其结果如表3所示。可见在卫星视频场景下直接忽略低置信度的检测是不合理的,会导致部分小目标无法匹配轨迹,造成跟踪精度的降低。注: ↑表示越高越好,↓表示越低越好。表3数据关联的消融实验Table 3Ablation study on data association本文选取了SORT (Bewley等,2016)、 DeepSORT(Wojke等,2017)、MOTDT(Chen等,2018)3种数据关联方法与Byte进行比对。为了公平地比较不同轨迹关联的差异,检测阶段都使用本文提出的改进YOLOX,对比结果如表4所示。可见采用Byte的MOTA指标最高,而且SORT、MOTDT、Byte在MOTA指标相近的情况下,Byte的IDF1指标更高,表明Byte的关联准确性更高。此外DeepSORT和MOTDT在匹配时使用了ReID模型,这两种方法的MOTA指标都低于不使用ReID模型的SORT和Byte,这是因为在卫星视频中,不同目标之间的外观特征差异小,以及目标与复杂背景之间的差异不突出,使用目标的外观特征会损害跟踪器的性能,因此在关联阶段需要根据卫星视频中目标的特点针对性地设计外观特征提取器,或者注重利用目标的时空、运动等信息提高关联的准确性。注: ↑表示越高越好,↓表示越低越好。表4不同数据关联方法的对比Table 4Comparison of different data association methods如表5所示,本文还验证了检测与关联对跟踪性能的影响,检测阶段分别采用YOLOX和YOLOS,检测阶段分别采用SORT和Byte。表5的结果说明,在检测上的改进能够极大提升卫星视频多目标跟踪的性能,而不同的关联算法对跟踪性能的影响相对较小。推测这是由于遥感视频成像的特点造成的,即以鸟瞰视角观测到的目标运动模式相对简单,使得关联阶段的难度低于自然场景的监控视频。注: ↑表示越高越好,↓表示越低越好。表5本文方法采用不同检测与关联方法对跟踪性能的影响Table 5Effect of adopting different detection and association methods in the proposed method on tracking performance3.4 对比实验结果及分析本研究将提出的方法与其他多目标跟踪算法进行比较,对比结果如表6所示。由表6可见,本文提出的方法在MOTA和IDF1指标上都优于其他方法。基于式(1)和表6可知,在卫星视频的多目标跟踪中,FN和FP对于MOTA指标的影响更大,即检测器的好坏更容易影响跟踪器的性能,如MSOT-CNN是基于单目标跟踪的方法,在复杂的背景下容易跟丢,导致FP过高;DSFNet更加注重检测运动目标,无法精准的检测出静止目标,导致FN过高。此外,相较于未使用ReID特征的方法,使用ReID特征关联的方法在卫星视频的跟踪中没有展现出其优势,如FairMOT和CenterTrack、StrongSORT和ByteTrack,这是因为卫星视频中目标之间的外观特征差异小,基于外观特征更容易产生匹配错误。在遥感场景和监控场景下进行多目标跟踪存在明显的差异,如ByteTrack在MOT17数据集上MOTA指标高达80.3%,而在卫星视频数据集中MOTA仅为49.6%,在卫星视频下进行多目标跟踪存在更大的挑战。注: 黑体数值表示该指标的最好的结果。↑表示越高越好,↓表示越低越好。表6不同方法下的跟踪性能比较Table 6Comparison of tracking performance under different methods表7展示了2021高分遥感图像解译大赛高分辨率光学卫星视频中多目标跟踪赛道的结果,结果表明,本文提出的多目标跟踪算法具有一定的优越性,并且本研究的检测器只在比赛给定的训练集上训练,未使用额外的数据。注: ↑表示越高越好。表72021高分大赛多目标跟踪赛道前5名结果Table 7Top 5 results of MOT in 2021 Gaofen Challenge","result":"章节详细描述了面向小目标检测的卫星视频跟踪算法的实验设置、数据结果处理与分析。实验数据来源于2021高分遥感图像解译大赛的高分辨率光学卫星视频多目标跟踪数据集AIR-MOT,包括飞机和舰船两类目标。实验中,70%的视频用作训练,30%用作测试,评价指标为MOTA。对比实验选用了联合检测与跟踪JDT方法和其他几种多目标跟踪算法。\n\n实验在Pytorch框架下进行,使用Ubuntu18.04操作系统、Intel Xeon 5220R CPU和NVIDIA RTX3090 GPU显卡。优化器采用SGD,数据增强包括Mosaic和MixUp,以及强的旋转数据增强。消融实验结果表明,增加预测分支、使用强旋转数据增强、引入CBAM注意力机制和Transformer均能提升跟踪性能,但处理速度有所降低。\n\n可视化特征响应图展示了网络对小目标的响应值,证明了CBAM和Transformer对小目标检测能力的提升。弱数据关联实验显示,忽略低置信度检测结果会导致跟踪精度降低。不同数据关联方法的比较表明,Byte方法在MOTA和IDF1指标上表现最佳,而使用ReID模型的方法在卫星视频跟踪中并未展现优势。\n\n检测与关联方法对跟踪性能的影响实验表明,检测阶段的改进对跟踪性能提升显著,而不同关联算法的影响相对较小。最终,与其他多目标跟踪算法的比较结果证明了本文提出方法在MOTA和IDF1指标上的优越性。此外,2021高分遥感图像解译大赛的结果进一步证实了算法的有效性。","language":"zh"},{"title":"面向小目标检测的卫星视频跟踪算法","chapter":"4 结论","content":"针对在高分辨率光学卫星视频中小目标跟踪问题,本文提出了一种面向小目标检测的卫星视频跟踪算法。主要结论如下:(1)由于卫星视频中的目标尺度小、特征信息弱,本文在检测器中添加一个预测分支,使用高分辨率的特征图来检测小目标,并且通过注意力机制在特征图中融合全局的上下文信息,并增强小目标的特征,有效地提高了对小目标的检测能力。(2)在关联阶段,由于数据中存在的大量小目标导致检测出的目标置信度较低,同时考虑高置信度和低置信度的检测结果,保证检测到的小目标能够与轨迹关联。(3)在AIR-MOT数据集上的实验结果表明,本文提出的方法在跟踪性能上超越了其他先进方法。此外,本文提出的方法仍存在局限性,首先为了提高跟踪的准确性能,牺牲了模型的运行效率,难以达到实时性的需求;其次在关联阶段未充分考虑遥感场景下多目标跟踪的特点,如由云雾、隧道等因素引起的目标遮挡问题,目标之间的相对关系等。本文所提方法对于舰船的跟踪效果仍不理想,未来应更加关注遥感场景下舰船的多目标跟踪问题。","result":"提出了一种针对高分辨率卫星视频中小目标检测的跟踪算法。通过在检测器中加入预测分支和注意力机制,增强了小目标的特征并提高了检测能力。关联阶段考虑了高低置信度的检测结果,确保小目标与轨迹的关联。实验结果表明,该方法在AIR-MOT数据集上的跟踪性能优于其他先进方法。然而,该方法存在局限性,如牺牲了模型的运行效率,难以实现实时性,且在关联阶段未充分考虑遥感场景下的多目标跟踪特点,如目标遮挡和相对关系等问题。未来研究应更关注遥感场景下舰船的多目标跟踪问题。","language":"zh"}]
      崔浩文,许楚杰,郑向涛,卢孝强
      2024, 28(7): 1812-1821. DOI: 10.11834/jrs.20232098
      面向小目标检测的卫星视频跟踪算法
      摘要:遥感卫星的多目标跟踪任务面监目标弱小,场景多样等挑战。为此,提出了一种高分辨率遥感卫星视频的多目标跟踪算法。在检测阶段,构建小目标检测器,首先在主干网络中通过Transformer捕获全局的上下文信息,然后利用注意力机制增强目标特征,最后添加了一个预测小目标的分支;在轨迹关联阶段,将检测出的小目标与已有轨迹匹配,采用关注低置信度检测的关联算法。本文选取高分辨率遥感卫星视频进行测试,测验结果表明本文提出的方法在遥感卫星视频中的多目标跟踪数据集上的MOTA指标达到63.1%,相较于基准(baseline)模型提升13.5%,能够显著提升遥感卫星视频中多目标跟踪的性能。  
      关键词:遥感;多目标跟踪;小目标检测;注意力机制;神经网络;轨迹关联   
      516
      |
      1149
      |
      0
      <HTML>
      <网络PDF><Enhanced-PDF><Meta-XML>
      <引用本文> <批量引用> 37454095 false
      发布时间:2024-07-31
    • [{"title":"基于改进遗传算法的SAR多星协同复杂区域观测规划","chapter":"1 引言","content":"遥感卫星对地观测具有可覆盖区域广、持续时间长、不受空域国界限制等独特优势,在民用领域发挥重要作用(贺仁杰,2004)。大范围区域目标快速观测对高精度地图绘制、目标搜索、自然灾害紧急救援等方面具有重要的意义(阮启明,2006),因此对区域目标观测的时效性和覆盖率提出了更高的要求。单颗遥感卫星单次波束覆盖范围有限,且受到轨道、载荷、分辨率、重访周期等限制无法实现任意大范围区域任务的快速观测响应(李春升 等,2016),利用多星协同技术是解决大范围区域快速观测任务的主要手段(Du等,2020)。相比于点目标规划调度,大范围区域目标规划更加复杂(Hu等,2021),且人工规划的方式无法满足日益复杂的卫星运行管控需求,研究高效的多星协同区域目标任务规划系统对提高遥感卫星的观测时效、提升卫星运管系统的智能化程度具有重要意义。光学成像卫星和SAR成像卫星是两类主要的遥感观测卫星且各有特点,光学卫星图像更加直观、清晰、易于判读,但是光学卫星易受光照条件、云雾、雾霾等环境的影响导致遥感图像获取不可控,而SAR卫星具备全天时、全天候、作用距离远等优势(Sun等,2021),使得SAR遥感观测更加稳定可控。当前,光学卫星发展较快且在轨光学卫星数量多(周晓青 等,2022),因此光学多星协同区域目标观测规划技术起步较早也发展较快。相对而言,SAR卫星协同观测任务规划技术涉及面更广、更复杂导致发展较慢。近年来SAR系统体制和成像技术发展迅速,微小型SAR卫星组网已成为主流发展趋势(邓云凯 等,2020),并且SAR卫星发射数量不断增加(张永贺等,2022),为充分发挥SAR多星协同观测的性能,迫切需要研究SAR多星协同区域观测任务规划技术。当前针对SAR成像卫星的区域观测协同任务规划技术研究较少。Wei(2013)对SAR调度问题进行分析并研究了点目标的调度问题,通过蚁群算法和模拟退火算法进行求解。王聪(2014)研究了编队干涉SAR对地测绘任务规划方法,提出了具有约束满足特性的区域分解方法,设计了混合遗传模拟退火算法为基础的模型求解框架。Kim和Chang(2015)研究了基于最小系统响应时间的SAR卫星的规划调度,首先通过条带模式进行感兴趣区域观测并进行相关变化检测,然后使用聚束模式对点目标进行精细观测。Kim和Chang(2020)还研究单星多次航过感兴趣区域中多个点目标的快速调度算法,并考虑指令上传和数据下传。从当前SAR卫星规划技术发展现状分析可知,当前SAR卫星规划任务以点目标为主,且规划对象多以单星或者双星为主,对多星区域观测规划技术缺乏研究。光学卫星在轨数量多且发展速度快,因此当前光学多星协同观测规划技术研究较多。在光学卫星区域规划研究中,将区域目标的调度规划过程分为两个阶段:第1个阶段为区域目标的分解;第2个阶段为区域目标的调度规划。美国空间成像公司对Landsat系列光学成像卫星进行规划时通过预定义参考系统进行分割,法国SPOT光学成像卫星根据网格参考系统进行区域目标的分割,此类方法工作量小、操作简单,适用于星载传感器固定且垂直于星下线的光学单景成像卫星(阮启明 等,2006)。Lemaı̂tre等(2002)提出基于相邻等宽矩形条带的光学成像卫星区域分割方法,依据卫星轨道运动方向和成像幅宽将区域目标分解为固定宽度的平行条带,在此基础上进行区域观测规划,此方法能够简化分割图像的预处理和后处理工作。阮启明(2006)提出了一种结合区域目标特性与光学载荷覆盖范围的区域分割方法,考虑卫星观测范围与目标区域的覆盖关系,采取有重叠的相邻等宽矩形条带分割方法,丰富了备选区域并增加了求解空间。白保存等(2008)提出了基于立体几何的区域分解方法,通过光学卫星成像立体几何计算卫星的覆盖范围并基于卫星运动方向和固定角度偏差进行区域划分。余婧等(2015)基于变化相机视场角进行相邻有重叠不等宽条带划分方法,以此构建了光学敏捷卫星同轨多条带拼幅成像工作模式。Zhu等(2019)提出最长基本覆盖模式对光学卫星区域目标进行分解,通过对网格空间的充分利用进行候选区域生成,并能通过改变网格空间改变候选区域的细粒度。从光学卫星区域任务规划的发展来看,光学卫星的区域分解方法与光学卫星的成像模式、覆盖范围等紧密结合。SAR卫星与光学卫星具有不同的成像机理和成像模式(李春升 等,2016),因此对于SAR观测区域分解应该与SAR卫星成像特点密切结合。光学卫星规划和SAR卫星规划的一个不同体现在下视角度上。光学卫星为下视成像,可以通过卫星姿态调整实现侧视成像,但是受限于卫星姿态调整能力,且侧视成像会导致光学成像分辨率下降(Xu等,2020)以及图像扭曲(Niu等,2018),因此光学卫星一般侧摆角度较小,在进行覆盖计算时多进行平面假设以简化问题。SAR卫星因其特殊的成像机理需要侧视成像,并且SAR卫星在卫星姿态调整基础上,还可以通过相控阵方式进行扫描角度调节,并且对于SAR卫星下视角度越大,地距分辨率越接近斜距分辨率,所以SAR卫星通常具有更大的下视角度和宽广的可覆盖范围,导致区域分解受地球曲面影响更加严重,不能进行平面近似。针对此问题,本文以实现精确的覆盖计算为研究对象,拟在计算星载SAR条带成像覆盖范围时采用精确的椭球计算方法,并且在计算区域覆盖面积使用高斯投影,保证覆盖计算的准确性。除此之外,在区域分解时对宽广的下视角度范围进行限制预处理,提高优化速度并减少计算浪费,以期为后续的优化算法提供精简的候选分解区域。通过区域分解后可以将多星协同区域规划问题数学建模为一个整数规划问题进行调度规划求解,调度规划方法一般分为精确求解算法和启发式算法两大类,适用于光学卫星和SAR卫星。传统的精确求解方法随着求解规模的增加会急剧增加求解时间和计算量。进化计算方法在复杂优化领域应用广泛且取得了不错的结果(Zhan等,2022),且对求解规模增加不敏感,其中遗传算法在成像卫星规划中表现优异(Song等,2023),因此开展基于遗传方法的SAR多星协同区域观测任务规划方法研究具有重要意义。","result":"介绍了遥感卫星在民用领域的重要性,特别是在大范围区域目标快速观测方面。由于单颗遥感卫星的覆盖范围有限,多星协同技术成为实现快速观测任务的主要手段。SAR卫星因其全天时、全天候的优势,在遥感观测中具有稳定性和可控性。然而,SAR卫星协同观测任务规划技术相对复杂,发展较慢。文章回顾了SAR成像卫星的区域观测协同任务规划技术的研究现状,指出当前研究多以点目标为主,且规划对象多以单星或双星为主,缺乏对多星区域观测规划技术的研究。同时,对比了光学卫星和SAR卫星在区域观测规划方面的差异,强调了SAR卫星规划需要考虑的成像机理和成像模式的特点。最后,提出了本文的研究目标,即基于改进遗传算法的SAR多星协同区域观测任务规划方法,以提高观测时效和运管系统智能化程度。","language":"zh"},{"title":"基于改进遗传算法的SAR多星协同复杂区域观测规划","chapter":"2 研究方法","content":"2.1 整体流程本文开展SAR多星协同区域目标观测任务规划技术研究,以区域目标最大覆盖面积为优化目标。由于当前星载SAR中条带成像模式应用范围最为广泛,为简化研究内容,本研究中SAR卫星统一使用条带成像模式。对于聚束、滑聚等其他成像模式,所提区域目标规划方法同样适用,但是需要根据具体的成像模式进行覆盖范围计算与访问计算。本文方法整体流程图如图1所示。输入为区域目标、规划时间段和卫星载荷参数,通过卫星工具包进行轨道递推和访问计算,最后通过本文所提区域规划方法进行区域覆盖规划。图1SAR多星协同区域观测规划方法流程图Fig. 1Flowchart of the SAR multi-satellite cooperative regional observation method本文所提区域规划算法包含3个部分:首先是对规划区域进行网格划分和覆盖计算的基础部分;然后是进行角度限制和两维分解的预处理部分;最后分别是使用贪婪算法进行快速优化、使用遗传算法进行2次优化的两阶段优化部分。2.2 星载SAR条带模式覆盖范围星载SAR条带模式成像几何模型如图2所示,卫星沿轨道飞行,从点开始录取数据,到点停止录取数据。SAR波束近似为椭圆形,方位向波束宽度为,距离向波束宽度为,波束中心下视角为。为满足成像的合成孔径时间要求,实际有效成像区域可近似为ABDC灰色矩形区域,因此只需要确定矩形区域的4个顶点,即可确定覆盖区域。A、B点为卫星在点分别以角度和发出的波束射线与地面相交的点,中第一个角度为方位向角度,第二个角度为距离向角度,C、D点为卫星在点分别以角度和 发出的波束射线与地面相交的点。图2星载SAR条带模式成像几何模型Fig. 2Geometry of spaceborne SAR strip mode imaging对于方位角为,距离角为的波束射线,在天线坐标系中的波束射线方向可表示为 (1)在已知卫星轨道六根数后,可以根据轨道外推获得卫星在任意时刻的位置。在时刻,卫星在地球固定坐标系位置为。卫星在时刻以波束方向照射在地球表面1点,设卫星到波束照射点之间的距离为。在时刻,由卫星轨道坐标系和地固坐标系的转换关系得到旋转矩阵,因此可以得到波束在地固坐标系的方向为,卫星和照射点之间的向量可以表示为,则点在地球固定坐标系中的坐标可以表示为 (2)同时,点还位于地球表面,满足椭球方程,由此可以解出距离,进而可以得到点的坐标。通过上述方式即可确定任意波束射线与地面相交点的位置,进而可以求得ABDC矩形区域位置。2.3 区域覆盖面积计算方法要完成对区域目标的观测规划,需要对区域目标的当前覆盖情况进行描述。区域目标经纬度跨度大,且经纬度空间不是标准的距离单位,在经纬度空间进行网格划分不合理,会导致覆盖面积计算不准确。高斯投影变形小且投影精度高,本文使用高斯投影与高斯反投影进行经纬度空间与平面空间的转换,在高斯投影平面进行网格划分与覆盖计算。为保证高斯投影的精度,以目标区域所在的中心经度为投影中心线进行投影,如图3所示。图3上海市经纬度地图与高斯投影地图对比Fig. 3Comparison of the longitude and latitude map and Gaussian projection map of Shanghai如图4所示,不同的SAR卫星具有不同的轨道和载荷参数,多星协同对复杂区域目标的覆盖情况表现为多方向不等宽不等长矩形条带覆盖,因此直接计算卫星对复杂区域目标的覆盖面积困难。当前区域规划的通常做法是进行网格划分,计算每个条带矩形对每个网格的覆盖情况,进而得到整个区域的覆盖情况,采用大小的网格对上海区域外接矩形框进行网格划分结果如图5(a)所示。在此基础上,通过目标区域对每个网格的相交情况计算可以得到真实复杂区域的网格化表示,结果如图5(b)所示。图4多方向矩形条带对上海区域覆盖图Fig. 4Multi directional rectangular strips covering the Shanghai area图5复杂区域网格划分与网格表示Fig. 5Grid division and representation of the Shanghai region为计算每次条带模式成像的矩形覆盖对复杂区域目标的覆盖情况,本文将条带覆盖矩形的4个点投影到高斯投影空间,然后得到矩形覆盖区域的4条边的直线表达式。对区域划分网格依次进行判断是否在矩形覆盖范围内,进而完成条带成像覆盖复杂区域的面积计算,结果如图6所示。图6区域内部和边界的两种条带覆盖情况Fig. 6Two types of strip coverage within and at the boundaries of the region2.4 角度限制预处理SAR卫星可以通过卫星姿态调整或者相控阵的方式改变波束中心下视角角度,进而改变单次成像的观测范围。因SAR卫星的波束中心下视角调整范围较大,因此SAR卫星在距离向的可调整观测范围较大,但是实际观测距离向波束宽度并不大,实际观测距离向幅宽较小。对区域目标的每1次访问,并不是整个可观测角度都可以对目标进行完成访问,部分角度下无法观测到目标区域,此时会造成访问资源浪费。同时使用整个可观测角度进行优化会导致优化变量维度高,造成计算浪费。因此需要对SAR卫星的观测角度进行限制,结合SAR卫星可观测范围和区域目标特征进行角度限制。对区域目标的角度限制思路如图7(a)所示,区域目标为绿色多边形区域,SAR卫星可观测区域为矩形区域。角度限制计算在高斯投影平面进行:首先将轨道星下点近似为直线;然后遍历绿色区域目标顶点,找到区域目标顶点中离星下点直线最近和最远的两个顶点,分别为和。其中,过点作与平行的直线,交于点,交于点;过点作与平行的直线,交于点,交于点。计算点和点的下视角分别为和,即为目标区域限制下视角范围。将目标区域限制下视角范围与可观测下视角范围作交集,既为实际下视角限制角度范围。角度计算如图7(b)所示。其中,为地球中心,向量与向量夹角为,同理可得,具体计算公式如下: (3) (4)图7区域目标的角度限制以及角度计算Fig. 7Angle limitation and calculation of region target采用两颗卫星对上海区域进行限制角度计算的两个情况,结果如图8所示。黄色矩形区域为卫星可观测矩形范围,蓝色矩形区域为限制角度后的观测区域,图8(a)为标准情况,图8(b)为边界情况。图8角度限制计算中的两种情况Fig. 8Two situations in angle limit calculation2.5 区域分解方法对于大范围区域目标,SAR卫星单次成像只能覆盖部分区域,需要多星多次成像进行联合覆盖。单次成像需决策卫星实际观测范围,对于星载SAR条带成像模式可以简化为控制两个参数,开始录取数据时间和波束中心下视角。综合考虑卫星存储以及能源消耗,在本文中固定有效数据录取时间为10 s,因此确定数据开始录取时间后即可确定数据录取结束时间,进而决定方位向数据录取范围。通过波束中心角度控制即可确定距离向数据录取范围。因此对于SAR卫星单次访问区域目标需要确定开始录取时间和波束中心下视角两个参数。设定固定的数据录取时间为10 s,为综合考虑数据存储约束、数传约束,并为简化问题研究而设定的值,实际工程中需要根据不同成像模式、卫星存储约束、数传约束、以及用户需求决定具体数据录取时间。对于SAR多星系统对于区域目标的每1次访问,按照开机录取时间和波束中心下视角两个参数进行区域分解,可得到诸多候选观测目标。后续通过优化算法从每1次访问的诸多候选观测目标中选择一个观测目标,最终形成观测计划,因此区域划分是区域目标观测的基础工作,区域划分的好坏以及可行性直接决定了区域规划算法的可行性。在本方法中,开机时间和波束中心角度都进行等间隔采样,构建有一定冗余的候选区域。图9(a)为固定观测角度,按照时间维度进行分解的结果,时间间隔选择3 s;图9(b)为固定开机时间,按照波束中心下视角维度进行划分的结果,角度间隔为1°;同时按照时间和角度两个维度进行分解,即可得到此次访问的候选区域分解列表。图9单次访问时间和角度维度分解结果Fig. 9Time and angle decomposition results of a single access所提方法对于每1次访问都进行时间和角度的两维分解,保证候选区域与卫星的轨道方向、SAR载荷的可观测范围、目标的区域特性相匹配,保证后续优化工作的可行性。2.6 改进遗传算法SAR多星协同观测区域目标,在规划时间段内可访问目标区域的总次数为次,构建长度为的染色体,编码方法采用整数编码,按照访问时间顺序进行编码,奇数位基因表示此次访问数据录取时间段编号,从0开始编号,-1表示此次不开机。偶数位基因表示此次访问下视角编号,从0开始编号。如图10所示,对于访问1,表示在第1个时间段开机,选择第2个下视中心角。图10染色体整数编码方法Fig. 10Chromosome integer encoding method表1为访问1在不同下视角与开始时间下的网格覆盖数量,对图10中的访问1编码数据与表1进行查询可知,图10中访问1的开机时间为5 h 54 min 52 s,波束中心下视角为34.8°,进而可以获得此情况下的区域覆盖情况,覆盖区域网格数为90。对于图10中的访问2开机时间段为-1,表示此次访问不进行观测。表1访问1在不同下视角与开始时间下的网格覆盖数量Table 1Number of grid coverage corresponding to different perspectives and start times of access 1通过多个染色体构建优化种群,采用随机初始化方法对种群进行初始化。为提高算法的优化速度以及取得Pareto最优解的能力,使用贪婪算法对问题进行优化,并将优化结果保存为种群中的1个染色体。采用精英保留策略,保证已经得到的满意解不会丢失,以此保证算法的收敛速度和性能。多星协同区域观测目的是要实现尽可能大的观测区域覆盖,因此适应度函数与覆盖面积正相关。线性面积覆盖适应度函数形式如式(5),表示覆盖率。但是线性适应度函数在整个覆盖范围给与的奖励相同,这样不利于摆脱局部最优解。本文提出3次面积适应度函数如式(6)所示,随着覆盖率的提升给与的奖励也会增加,更加有利于实现更大面积覆盖。图11为2种适应度函数的对比图像。图11不同网格覆盖率下两种适应度函数对比Fig. 11Comparison of two fitness functions under different grid coverage rates (5) (6)选择算子采用轮盘赌方法,通过计算种群中每个染色体个体的适应度,然后根据各自适应度确定被选择概率,最后通过轮盘赌的形式选择下一代种群,适应度越大的个体具有更大的概率被保留。交叉算子采用以单次访问为最小粒度的单点交叉,如图12所示。可见:染色体长度为8,所以表示有4次访问机会;从4次访问机会中随机选取1次作为交叉点,图12选取访问2作为交叉点,染色体1和染色体2进行交叉操作得到新染色体1,新染色体1由染色体1交叉点之前部分和染色体2交叉点之后部分构成。图12以单次访问为最小粒度的单点交叉操作Fig. 12Single-point crossover operation with single visit as the minimum granularity变异操作采用以单次访问为最小粒度的随机变异,如图13所示,染色体的访问2对应的基因发生变异,访问2的开机时间段变为编号为1的时间段,访问2的角度变为编号为2的时间段。图13以单次访问为最小粒度的随机变异操作Fig. 13Random mutation operation with single access as the minimum granularity","result":"研究了基于改进遗传算法的SAR多星协同复杂区域观测规划技术。研究方法包括整体流程、星载SAR条带模式覆盖范围、区域覆盖面积计算方法、角度限制预处理、区域分解方法和改进遗传算法六个部分。\n\n整体流程中,研究以区域目标最大覆盖面积为优化目标,采用条带成像模式,通过卫星工具包进行轨道递推和访问计算,最后进行区域覆盖规划。区域规划算法分为网格划分和覆盖计算、角度限制和两维分解的预处理、以及两阶段优化。\n\n星载SAR条带模式覆盖范围部分,通过成像几何模型确定有效成像区域,利用波束射线与地面相交点的位置确定覆盖区域。\n\n区域覆盖面积计算方法中,使用高斯投影与高斯反投影进行经纬度空间与平面空间的转换,通过网格划分与覆盖计算得到区域覆盖情况。\n\n角度限制预处理部分,针对SAR卫星的观测角度进行限制,以减少资源浪费并降低优化变量维度,通过高斯投影平面进行角度限制计算。\n\n区域分解方法中,对于大范围区域目标,通过固定数据录取时间并控制开始录取时间和波束中心下视角,进行区域分解,得到候选观测目标。\n\n改进遗传算法部分,构建染色体并采用整数编码,通过随机初始化方法对种群进行初始化。使用贪婪算法优化问题,采用精英保留策略保证收敛速度和性能。适应度函数与覆盖面积正相关,提出三次面积适应度函数以摆脱局部最优解。选择算子采用轮盘赌方法,交叉算子和变异操作以单次访问为最小粒度进行操作。","language":"zh"},{"title":"基于改进遗传算法的SAR多星协同复杂区域观测规划","chapter":"3 结果与分析","content":"3.1 仿真场景本文选择4颗SAR卫星进行组网仿真,以验证本文所提方法。本文仿真的组网SAR卫星分别为高分三号01星、高分三号02星、高分三号03星、海丝一号,规划时间为北京时间2022年8月15日0点到2022年8月20日0点。卫星轨道数据使用两行轨道参数TLE(Two Line Elements)格式,4颗卫星轨道数据如表2所示,轨道递推方法采用简化常规摄动模型SGP4(Simplified General Perturbation 4)。4颗卫星的单轨星下点轨迹如图14所示。表2卫星TLE轨道参数以及传感器参数Table 2Satellite TLE orbit parameters and sensor parameters图144颗卫星的单轨星下点轨迹Fig. 14Single orbit substellar point trajectories of four satellites本文仿真中高分三号3颗卫星统一使用超精细条带模式,入射角为20°—50°,卫星高度近似为755 km,通过简化计算波束下视角变化范围为17.6°—39.2°。在本文仿真中海丝一号卫星成像采用条带模式,入射角范围为20°—35°,高度512 km,通过简化计算波束下视角变化范围为18.2°—30.4°。SAR卫星实际规划中需要考虑波位参数,通过合理选择脉冲重复频率PRF(Pulse Repetition Frequency)和入射角保证回波信号同时避开发射截止区和星下点回波窗,同时满足距离模糊度、方位模糊度、成像幅宽、分辨率等限制条件。为简化本文研究问题便于分析处理,本文对波位参数进行简化处理,设定距离向波束宽度固定为2.0°。实验选择北京市、天津市、上海市3个区域进行仿真实验,3个区域各自轮廓如图15所示。图15北京、天津和上海3个区域的高斯投影图对比Fig. 15Comparison of Gaussian projection maps in three regions: Beijing, Tianjin and Shanghai本方法所使用遗传算法的种群数量为120,迭代次数为100,交叉概率为0.8,变异概率为0.1。3.2 结果与分析使用不同算法对3个实验区域进行访问实验结果如图表3所示。改进遗传1为使用贪婪算法初始化和精英保留策略的遗传算法,改进遗传2为使用3次面积适应度函数的遗传算法。从表3可以看出,通过使用贪婪算法和使用精英保留策略,能够进一步优化覆盖率。在此基础上,进一步使用3次函数形式的适应度函数,能够进一步提高覆盖率,证明本文改进算法的有效性。对比3个区域,所提算法都有覆盖率提高效果,但是提升效果不一,原因在于形状、位置、访问次数等差异导致各自陷入局部最优程度不一致,但是所提算法在3个区域都能实现效果提升证明所提方法的鲁棒性。注:加粗数值表示最优数值。表3不同算法在3个区域上的优化结果对比Table 3Comparison of optimization results of different algorithms in three regions /%图16为表2中4种不同算法在上海区域的覆盖优化曲线变化图,黄色方形虚线为贪婪算法结果,贪婪算法不需要迭代优化,所以在图16中表示为1条直线。蓝色X形虚线为原始遗传算法优化曲线,原始遗传算法虽然能够实现优化,但是优化过程不稳定,且优化效果不够好。绿色三角虚线为添加贪婪算法初始化和精英保留策略的遗传算法,能够在贪婪算法基础上继续优化,但是一段时间后收敛不再继续优化。红色圆形实线为添加3次适应度函数的遗传算法结果,能够实现效果最好的覆盖优化,证明所提3次适应度函数有利于更大面积覆盖优化。图16上海区域不同算法下覆盖率差异Fig. 16Optimization curves for different algorithms in the Shanghai region图17为北京市、上海市、天津市3个区域目标的覆盖结果图,左侧为贪婪算法优化结果,右侧为改进遗传算法优化结果,本文仿真采用固定距离向波束宽度为2°,因此随着下视角增大,幅宽也会相应增大,覆盖结果表现出不同的距离向幅宽。从图17中可以直观看出,改进遗传算法2对区域的覆盖率更高。图17不同算法下北京市、天津市、上海市3个区域的覆盖结果图Fig. 17Coverage results of Beijing, Tianjin, and Shanghai under different algorithms观察图17区域优化覆盖结果以及图18(a)可以看出,部分网格在条带覆盖边界区域,由于划分网格较大,导致网格没有全部位于条带覆盖范围内,因此在计算面积时没有计算这种网格区域,导致覆盖区域计算不准确。解决此问题方法为提高网格划分的精细度,图18为采用不同大小的网格划分后的区域覆盖结果,可以看出采用更加精细网格划分后区域覆盖计算更加精准。图18不同精细网格覆盖结果Fig. 18Different fine grid coverage results在精细网格基础上,对上海区域采用上述几种算法进行优化,结果如表4和图19所示。在精细网格划分条件下,本文所提算法依旧能够实现优异的优化结果,证明算法的通用性和稳定性。表4精细网格下算法优化结果Table 4Algorithm optimization results under fine grid /%图19精细网格下两种算法的优化结果Fig. 19Optimization results of two algorithms under fine grid","result":"通过仿真实验验证了基于改进遗传算法的SAR多星协同复杂区域观测规划方法的有效性。实验选择了4颗SAR卫星,包括高分三号01星、02星、03星和海丝一号,规划时间为2022年8月15日至20日。卫星轨道数据采用TLE格式,使用SGP4模型进行轨道递推。仿真中考虑了卫星的成像模式、入射角、高度和波束下视角变化范围,同时简化了波位参数的处理。\n\n实验选取了北京市、天津市和上海市3个区域进行仿真,使用遗传算法进行优化,种群数量为120,迭代次数为100,交叉概率为0.8,变异概率为0.1。通过对比不同算法的优化结果,发现改进遗传算法1(使用贪婪算法初始化和精英保留策略)和改进遗传算法2(使用3次面积适应度函数)能够进一步提高覆盖率,证明了所提算法的有效性。不同区域的覆盖率提升效果存在差异,但所提算法在所有区域均能实现效果提升,显示出良好的鲁棒性。\n\n在上海区域的覆盖优化曲线变化图中,改进遗传算法2(红色圆形实线)表现出最佳的覆盖优化效果。北京市、上海市和天津市的覆盖结果图也显示,改进遗传算法2对区域的覆盖率更高。然而,部分网格在条带覆盖边界区域由于网格划分较大而没有全部位于覆盖范围内,导致覆盖区域计算不准确。通过提高网格划分的精细度,可以更准确地计算区域覆盖。\n\n在精细网格划分条件下,所提算法依然能够实现优异的优化结果,证明了算法的通用性和稳定性。通过对比不同算法在精细网格下的优化结果,进一步验证了所提算法的有效性。","language":"zh"},{"title":"基于改进遗传算法的SAR多星协同复杂区域观测规划","chapter":"4 结论","content":"为优化SAR多星协同复杂区域覆盖规划技术,本文构建了一个可行的SAR多星协同复杂区域观测规划流程,提出了一种适合SAR多星条带成像模式的复杂区域覆盖规划方法。主要结论如下:(1)现有的区域规划针对简单形状区域进行研究,本文提出了一种结合高斯投影、网格划分与几何运算的复杂大范围区域覆盖面积计算方法;(2)针对SAR卫星具有宽广下视角范围的特点,提出了结合角度限制与二维分解的区域分解方法,所提方法能够实现高效可行的区域分解;(3)针对当前SAR多星区域覆盖规划方法人在环路、效率低下的问题,提出了结合贪婪算法、精英保留策略、3次适应度函数的改进遗传算法,能够实现高效优异的区域覆盖结果。由于SAR卫星规划需要考虑成像波位的选择,对PRF和入射角产生更多的限制条件,并且还要考虑距离模糊度、方位模糊度等因素对成像质量的影响,这都将增加本文规划模型的复杂度。因此,本文进行了简化处理。后续研究将深入结合SAR卫星成像信号处理特点,开展考虑SAR成像波位、SAR图像质量的SAR多星协同复杂区域覆盖规划方法研究。","result":"提出了一种基于改进遗传算法的SAR多星协同复杂区域观测规划方法,构建了可行的观测规划流程,针对复杂大范围区域覆盖面积计算、区域分解和多星区域覆盖规划问题提出了创新性解决方案。研究简化了模型以适应SAR卫星成像波位选择和成像质量影响因素,后续将深入考虑SAR成像信号处理特点,优化规划方法。","language":"zh"}]
      石鑫,邢孟道,张金松,刘会涛,王虹现
      2024, 28(7): 1822-1834. DOI: 10.11834/jrs.20243258
      基于改进遗传算法的SAR多星协同复杂区域观测规划
      摘要:遥感卫星大范围区域观测在地图绘制、灾害救援等领域均具有重要作用。SAR遥感卫星具有不受云雾夜间环境影响的特点,研究SAR多星协同区域观测技术具有重要意义。针对当前缺乏SAR多星协同对复杂区域快速观测规划方法的问题,本文首先对大范围复杂区域覆盖率计算进行分析,提出了结合高斯投影、网格划分与几何运算的复杂区域覆盖率计算方法;然后对SAR条带成像模式进行覆盖分析,提出了结合角度限制和两维分解的候选区域分解方法;最后提出了结合贪婪算法初始化、精英保留策略和3次适应度函数的改进遗传算法用于区域覆盖率优化。本文选取4颗在轨SAR卫星和3个区域目标进行仿真实验,实验结果证明本文方法在北京市、天津市、上海市3个区域都能够实现优异的区域覆盖率优化,相比贪婪算法,本文方法在上述3个区域的覆盖率分别提升3.17%、2.94%、9.02%。该算法可为SAR多星协同区域观测系统的建立提供技术基础。  
      关键词:遥感;星载SAR;多星协同;区域观测;覆盖计算;区域分解;遗传算法   
      138
      |
      420
      |
      0
      <HTML>
      <网络PDF><Enhanced-PDF><Meta-XML>
      <引用本文> <批量引用> 50096825 false
      发布时间:2024-07-31
    0