基于域适应的煤矿环境监控图像语义分割

杨 潇1,2,陈 伟1,2,3,任 鹏1,2,杨文嘉1,2,毕方明1,2

(1.中国矿业大学 计算机科学与技术学院,江苏 徐州 221116;2.中国矿业大学 矿山数字化教育部工程研究中心,江苏 徐州 221116;3.中国科学院上海微系统与信息技术研究所 无线传感网与通信重点实验室,上海 200050)

摘 要:煤矿复杂场景监控图像的解析是煤矿安全高效生产的重要保障。语义分割是图像智能分析的关键技术,为图像中的每个像素分配类别标签。全卷积神经网络、DeepLab系列、DFN等较高性能的语义分割模型需要依赖大量的像素级标签。针对煤矿监控图像缺少标注信息及容易混淆外观相似的不同类别目标的问题,提出双对齐网络模型。该模型从特征级和像素级两方面减少域间差异,将在合成数据集上训练的语义分割模型迁移到煤矿真实场景中,实现煤矿监控图像语义分割。在特征空间中,使用特征级域适应网络学习域不变特征,减少2个领域之间特征表示的分布差异,实现特征级对齐;在像素空间中,使用像素级域适应网络将源域图像风格转换为目标域图像的风格,减少因纹理、光照等因素造成的域偏移,实现像素级对齐。分割网络使用具有煤矿环境风格的源域图像进行训练,学习煤矿监控图像光照、纹理等特征,增强煤矿监控图像中不同类别目标的区分度。判别器中添加空间注意力模块和通道注意力模块,用来提高双对齐网络模型中判别器的判别能力。通道注意力模块为每个通道的特征分配不同的权重,空间注意力模块使用非局部操作获得不同位置间的关系信息。实验选取GTA5-to-Cityscapes和SYNTHIA-to-Cityscapes两个典型的域适应任务验证双对齐网络的有效性,将该算法与AdaptSegNet,DCAN,CLAN等算法进行对比实验。实验结果表明,双对齐网络的平均交并比提高到43.7%和45.80%。对于煤矿复杂环境,选取SYNTHIA-to-Coal Mine域适应任务进行实验。双对齐网络模型的平均交并比为38.26%,比AdaptSegNet,DCAN,CLAN等算法分别提高7.19%,8.34%和5.56%。针对煤矿监控图像缺少标注信息的问题,双对齐网络减少合成图像与煤矿监控图像的域间差异,较好地分割不同类别的目标。

关键词:煤矿图像语义分割;无监督域适应;像素级对齐;特征级对齐;注意力机制

中图分类号:TP391.3

文献标志码:A

文章编号:0253-9993(2021)10-3386-11

移动阅读

收稿日期:2020-11-10

修回日期:2020-12-30

责任编辑:郭晓炜

DOI:10.13225/j.cnki.jccs.2020.1771

基金项目:国家自然科学基金资助项目(51874300);国家自然科学基金委员会-山西省人民政府煤基低碳联合基金资助项目(U1510115)

作者简介:杨 潇(1996—),女,陕西咸阳人,硕士研究生。E-mail:1325529849@qq.com

通讯作者:陈 伟(1978—),男,江苏徐州人,教授,博士生导师,博士。E-mail:chenwdavior@163.com

引用格式:杨潇,陈伟,任鹏,等.基于域适应的煤矿环境监控图像语义分割[J].煤炭学报,2021,46(10):3386-3396.

YANG Xiao,CHEN Wei,REN Peng,et al.Coal mine monitoring image semantic segmentation based on domain adaptation[J].Journal of China Coal Society,2021,46(10):3386-3396.

Coal mine monitoring image semantic segmentation based on domain adaptation

YANG Xiao1,2,CHEN Wei1,2,3,REN Peng1,2,YANG Wenjia1,2,BI Fangming1,2

(1.School of Computer Science and Technology,China University of Mining and Technology,Xuzhou 221116,China;2.Engineering Research Center of Digital mine,Minster of Education,China University of Mining and Technology,Xuzhou 221116,China;3.Key Laboratory of Wireless Sensor Network and Communications,Shanghai Institute of Microsystem and Information Technology of the Chinese Academy of Sciences,Shanghai 200050,China)

Abstract:Coal mine complex scene monitoring images parsing is an important guarantee for safety and efficiency in coal mine operation.Semantic segmentation is a crucial way in the image intelligent analysis, which aims to assign a category label to each pixel in the image.High performance semantic segmentation models, such as Fully Convolutional Neural Networks, DeepLab, and DFN, depend on a large number of pixel-level labels.There are some problems in the task of coal mine monitoring image semantic segmentation, such as the lack of monitoring image annotation information and the confusion of different semantic targets with similar appearances.Therefore, the Dual Alignment Networks method is proposed.The method reduces the domain difference in the feature level and pixel level, and can transfer the image semantic segmentation model trained on the synthetic data to the coal mine scene for monitoring images semantic segmentation.In the feature space, the feature-level domain adaptation network is used to learn the domain-invariant features, which can reduce the feature representation distribution difference between the two domains.In the pixel space, the pixel-level domain adaptation network is used to transfer the source images to the style of target images, which can reduce the domain shift caused by texture and illumination.To enhance the discrimination of different categories of targets in the coal mine monitoring image, the stylized images are used to train the segmentation network, making it can learn the characteristics of coal mine monitoring image illumination and texture.To improve the discriminative ability of the discriminator, the spatial attention module and channel attention module are involved in discriminator.The channel attention module assigns different weights to each channel features, and the spatial attention module obtains the relationship information between different positions by non-local operation.To evaluate the effectiveness of Dual Alignment Networks, the algorithm is compared with AdaptSegNet, DCAN,and CLAN in GTA5-to-Cityscapes and SYNTHIA-to-Cityscapes domain adaptation tasks.The experimental results show that the Mean Intersection over Union (MIoU) of the Dual Alignment Networks is 43.7% and 45.80%.For a coal mines complex scene, the algorithm is compared with AdaptSegNet, DCAN, and CLAN in SYNTHIA-to-Coal Mine domain adaptation task.The Mean Intersection over Union of Dual Alignment Networks is 38.26%, which is increased by 7.19%, 8.34% and 5.56% respectively.For some coal mine monitoring images without annotations, the Dual Alignment Networks can segment different semantic categories targets by reducing the difference between the synthetic image and the coal mine monitoring image.

Key words:coal mine image semantic segmentation;unsupervised domain adaptation;pixel-level alignment;feature-level alignment;attention mechanism

煤炭是我国的重要资源,保障国民经济稳步发展[1-2]。随着智能化技术的发展,由人力资源主导的传统煤矿行业存在安全水平低、开采效能低等问题,感知型、智能型、智慧型矿山成为煤矿行业发展的必然趋势[3]。近年来,深度学习算法逐渐在煤矿特殊环境中得到应用。曹玉超等[4]训练残差网络检测矿井水位标尺刻度。马宏伟等[5]提出基于深度视觉的导航方法,解决煤矿移动机器人的自主导航问题。司垒等[6]改进U-net网络模型,较好地提高综采工作面煤层的识别精度。李晓宇等[7]提出基于超像素粒化及同质图像粒聚类的方法,对煤矿人员进行分割。然而,煤矿环境中存在光线昏暗,对比度低等问题[8],导致监控图像质量差,深度学习模型应用于煤矿特殊环境中存在一定的困难。语义分割技术是深度学习方法应用于煤矿智能监控系统的一项关键技术,对煤矿复杂场景解析具有重要意义。

随着深度学习的发展,尤其是全卷积神经网络(Fully Convolutional Networks,FCN)[9]的提出,语义分割获得巨大的发展。DeepLab v1[10]将深度卷积神经网络与概率图模型相结合,使用空洞卷积解决卷积网络中下采样导致的细节丢失问题。DeepLab v2[11]提出空洞空间金字塔池化(Atrous Spatial Pyramid Pooling,ASPP)模型,用来融合不同语义级别的信息。DeepLab v3[12]进一步改进空洞卷积,提出串行和并行的空洞卷积模块捕获多尺度信息。与大多数图像语义分割模型不同,YU等[13] 认为语义分割不是标记每个像素而是标记一个整体,提出平滑网络模型和边界网络模型来解决类内不一致和语义边界问题。DenseASPP模型[14]采用密集的方式将空洞卷积连接起来,达到密集采样的同时获得更大的感受野。上述图像语义分割模型需要大量的像素级标签进行训练,不适用于对缺少标注信息的煤矿环境监控图像进行语义分割。

近年来,域适应方法逐渐成为深度学习的热点研究内容,将从源域中学习知识应用到目标域[15],用来解决源域和目标域之间的域偏移问题。域适应方法主要是通过对齐源域和目标域之间的特征分布或使用对抗网络学习域不变特征来减小不同数据域的分布差异。文献[16-17]采用多核的最大均值差异(Multiple Kernel Variant of MMD,MK-MMD)和二阶统计量最小化源域和目标域的分布差异。文献[18]提出对比域差异(Contrastive Domain Discrepancy)方法,对类内域和类间域的差异进行建模。随着域适应方法的发展,基于域适应的语义分割在计算机视觉领域中显现出显著优势。文献[19]将域适应方法与语义分割结合起来,提出基于全卷积网络的无监督域适应语义分割模型,从全局对齐和具体类别对齐两方面减小域偏移。文献[20]提出端到端的对抗性领域自适应网络模型。基于文献[20],VU等[21]提出深度感知自适应语义分割模型,利用图像深度信息训练无监督域适应模型。文献[22]在对抗学习框架中添加联合训练的思想,解决传统域适应方法的语义不一致性、负迁移等关键问题。文献[23]通过对抗损失间接减小熵值减少域偏移。文献[24]使用风格迁移方法合成具有目标域风格的图像,提出可以适应不同环境的语义分割模型。文献[25]提出将图像分解为域不变结构和域特定纹理表示的域不变结构提取框架,实现跨域图像转换,提高图像语义分割性能。文献[26]将对抗网络与自训练结合起来,提出基于迭代自训练的新型无监督域适应模型,根据目标域具有高置信度的预测交替生成伪标签,并使用这些伪标签重新训练模型。基于域适应方法的图像语义分割模型,对于缺少标注信息的图像中具有较好的语义分割性能,但在煤矿复杂环境中的应用近乎空白。

本文研究基于域适应的煤矿环境监控图像语义分割方法。煤矿环境中存在光线不足、对比度低等问题,容易混淆外观相似的不同语义类别的目标,导致语义分割性能降低。针对煤矿监控图像缺少标注信息和容易混淆外观相似的不同语义类别目标的问题,笔者提出双对齐网络模型。该模型将在合成图像上训练的模型迁移到煤矿监控图像上,实现煤矿环境监控图像语义分割。在特征空间中,使用特征级域适应网络学习域不变特征,减少合成图像与煤矿监控图像的特征分布差异。在像素空间中,使用像素级域适应网络将源域图像风格转换为目标域图像的风格,减少因纹理、光照等因素造成的域偏移。由于源域图像和目标域图像并不总是空间对齐的,像素级域适应网络采用基于语义和上下文的Contextual Loss[27]进行网络优化。为解决煤矿监控图像中不同语义类别目标易混淆的问题,使用具有煤矿环境风格的源域图像训练分割网络,提高煤矿监控图像语义类别辨识度。判别器中添加空间注意力模块和通道注意力模块,用来增强判别能力。空间注意力模块计算任意2个位置之间的联系以捕获更多的信息,通道注意力模块为不同通道的特征映射分配不同的权重。将本文方法与AdaptSegNet,DCAN,CLAN等算法进行对比,并从平均交并比指标上进行分析,验证本文提出的双对齐网络模型的有效性。

1 双对齐网络模型

1.1 问题描述

主要研究煤矿复杂环境监控图像的语义分割问题,目标是提高煤矿智能监控系统的场景理解能力。传统的对抗性域适应语义分割模型将合成图像作为源域图像,真实图像作为目标域图像,从2方面进行训练:① 训练分割网络模型G,通过最小化分割损失从源域图像中提取知识;② 判别器D接收分割网络G的输出I并判断I是来自于源域还是目标域。通过分割网络G和判别器D的对抗训练,分割网络G学习域不变特征。传统的对抗性域适应模型使用对抗训练的方式减少源域和目标域之间的特征分布差异,实现特征级域适应。然而,特征级域适应方法为学习到域不变特征,通常会忽略一些域差异较大的样本,具有一定的局限性。

针对传统的域适应方法具有一定的局限性以及合成数据集与煤矿监控图像域间差异较大的问题,笔者从特征级域适应和像素级域适应2个角度出发,提出双对齐网络模型。

1.2 双对齐网络结构

研究目标是将在源域图像上学习的模型迁移到目标域图像上,使其可以准确地预测目标域图像的像素级标签。方法主要包含特征级域适应网络和像素级域适应网络。给定源域数据集和目标域数据集,像素级域适应网络在源域图像和目标域图像之间进行风格迁移,得到具有目标域风格的源域图像。特征级域适应网络包含分割网络和判别器,2者通过对抗训练学习域不变特征。为提高判别器的判别能力,将注意力机制应用到判别器中,网络结构如图1所示。源域图像为xsXS,源域图像的像素级标签为ysYS

图1 双对齐网络结构
Fig.1 Architecture of Dual Alignment Networks

目标域图像为xtXT,其中,XS为源域图像;xs为源域中的具体图像;YS为源域标签数据;ys为具体的源域标签数据;XT为目标域图像;xt为目标域中的具体图像。

基于ResNet-101网络的DeepLab-v2[11]作为分割网络G。DeepLab-v2是全卷积神经网络之后被广泛应用的语义分割模型。分割网络G包含编码器和分类器,判别器D中包含5个卷积核尺寸为4×4的卷积层和注意力模块。源域图像和目标域图像作为分割网络G的输入,得到源域图像和目标域图像的分割结果。对于源域图像的预测分割结果,根据像素级标签计算交叉熵损失优化网络G。源域图像与目标域图像的分割结果输入到判别器D中,判别器D需区分输入来自于哪个域。通过分割网络G和判别器D的联合训练,进行特征级对齐。源域图像和目标域图像作为像素级域适应网络的输入,获得具有目标域风格的源域图像。将具有目标域风格的源域图作为分割网络G的输入,获得预测的分割结果,根据源域图像的像素级标签计算交叉熵损失并将其反向传播到分割网络G

1.3 特征级域适应

源域图像和目标域图像在视觉级别上差异较大,但在语义类别方面信息是相同的,语义信息通常是域不变的[28]。通过学习域不变特征提取源域图像和目标域图像的语义信息,实现跨域语义分割。使用特征级域适应网络学习域不变特征,进行特征级对齐。 特征级域适应网络主要包含分割网络G和判别器D,目标是减少2个领域之间特征表示的分布差异,其流程分为2步:

(1)使用源域图像进行监督训练。源域图像作为分割网络G的输入,编码器进行特征提取,分类器对编码器产生的特征进行分类。多分类交叉熵损失作为分割损失函数。优化多分类交叉熵损失,使编码器提取的特征保留源域图像的语义信息且分类器可以进行准确分类。该步的分割损失函数Lseg

(1)

式中,C为语义类别数目;H为图像的高;W为图像的宽;为像素ic类上的预测概率;yic为像素ic类上的真实概率。

(2)对抗域适应。源域图像和目标域图像输入分割网络G,经过编码器和分类器,得到源域图像分割结果和目标域图像分割结果。判别器接收源域和目标域的分割结果并进行区分。优化判别器的交叉熵损失函数,提高判别器的区分能力。交叉熵损失函数Ld

(2)

式中,hw分别为分割结果的高度和宽度;P为语义分割结果。

z=0表示样本来自目标域,z=1表示样本来自于源域。

目标域图像输入分割网络G,经过编码器和分类器,得到目标域分割结果PT=G(XT)。为使源域图像分割结果的分布与目标域图像分割结果接近,采用如式(3)所示的损失函数Ladv

(3)

在训练过程中,判别器D希望尽可能区分不同域的分割结果,分割网络G希望目标域图像的分割结果可以欺骗过判别器D。通过不断的对抗训练,分割网络G学习到源域图像和目标域图像的域不变特征,在特征空间中对齐源域和目标域的分布,使得源域图像训练的分割网络G可以迁移到目标域图像。

如图1所示,交替训练分割网络G和判别器D,在特征空间上调整源域和目标域的特征分布,提高分割网络G对目标域图像的泛化能力。由于合成图像与煤矿图像领域差异较大,使用特征级域适应网络学习域不变特征,其特征域不变性有所降低。为减少合成图像与煤矿真实图像的领域差异,在特征级域适应网络的基础上引入像素级域适应网络。

1.4 像素级域适应

图像的纹理、光照等特征是造成域间差异的重要原因,减少域间差异,目标域图像的分割性能也会随之提升。提出像素级域适应网络,在保留其原始图像内容前提下,对源域图像进行风格迁移,使其在背景、纹理、光照等方面与煤矿环境监控图像更接近。风格化后源域图像与目标域图像在视觉外观上看起来像是来自同一个域,在输入层面解决域偏移问题。

煤矿复杂环境监控图像存在外观相似的不同语义类别目标易混淆的问题,导致域适应语义分割有一定困难。在像素级域适应网络中,使用具有煤矿场景风格的源域图像训练分割网络G。分割网络G学习到煤矿环境监控图像的光照、纹理等特征,增强对不同类别目标的区分度。像素级域适应网络如图2所示。

图2 像素级域适应网络
Fig.2 Pixel-level domain adaptation Network

像素级域适应由图像转换网络T和损失网络φ组成。图像转换网络T包含6个卷积层、5个残差块。源域图像XS传入转换网络T,输出风格化后的图像预训练的VGG19网络作为损失网络,用来定义风格损失函数和内容损失函数。

内容损失函数用来衡量源域图像和风格化后图像内容上的误差,内容损失越小,表示图像内容的相似度越高。为构建内容损失函数,笔者采用预训练的VGG19神经网络分别在源域图像和风格化后图像上获取特征映射,计算在特定卷积层上的特征相似度。如果特征相似度越高,则表明图像之间的内容相似度越高。选取源域图像和风格化后的图像在第l层提取的特征的L2 loss作为内容损失函数Lcontent_loss,即

(4)

针对图像风格迁移问题,不仅需要内容损失函数能够衡量图像内容上的差异,同时需要风格损失函数来衡量图像间风格的差异。图像间风格差异程度越小,则表示图像风格相似度越高。为构建风格损失函数,通过预训练的VGG19神经网络分别在源域图像和风格化后图像上获取特征映射,使用Contextual Loss[27]计算图像间的相似程度。

源域图像和目标域图像并不总是空间对齐的,采用Contextual Loss作为风格损失函数。Contextual Loss认为2张图像同一区域的特征块中大部分是相似的,则可认为2张图像是相似的。为计算图像间的相似度,需要找到每个特征Yi最相似的特征Xi,然后求和相应的特征相似度:

(5)

式中,CX为采用Contextual Loss损失函数;CXij为特征相似性。

风格损失函数如式(6)所示,计算风格化后图像与目标域图像之间的差异并通过反向传播的方式更新图像转换网络T的参数。

(6)

风格化后的源域图像输入分割网络G,经过编码器和分类器,得到分割结果使用多分类交叉熵损失优化分割网络G,使其学习到煤矿监控图像颜色、纹理等特征,提高分割网络G对煤矿环境监控图像的泛化能力,交叉熵损失函数

(7)

1.5 注意力模块

分割网络G和判别器D进行对抗训练,判别器D希望尽可能地区分接收的信息来自哪个域,分割网络G希望分割结果可以混淆判别器。笔者在将注意力机制应用到判别器D,提高判别器的判别能力。通过GD的不断进行对抗训练,提高分割网络G的泛化能力。

注意力机制通过关注重要特征并抑制不必要的特征来增加特征表征力[29]。笔者设计基于注意力机制的判别器,在判别器D中添加通道注意力模块和空间注意力模块,如图3所示。

图3 注意力模块AM
Fig.3 Attenion Module AM

输入F经过通道注意力模块后得到通道注意力特征,将输入F与通道注意力特征进行逐像素相乘得到特征映射特征映射作为空间注意力模块的输入,得到空间注意力特征。空间注意力特征与特征映射逐像素相乘,最后生成的特征表示作为下一个模块的输入。

CNN卷积层包含丰富的信息,同等的对待不同通道的特征映射会导致信息冗余。使用通道注意力模块,为不同通道的特征映射分配不同的权重,如图4所示,其中,S为sigmoid激活函数;X为元素级相乘。

图4 通道注意力模块
Fig.4 Channel Attenion Module

输入特征F经过全局平均池化,在空间维度上进行压缩,得到通道注意力映射Cavg(1×1×C)。多层感知机中间隐藏层的神经元数量为C/r,在文中r为2,激活函数为ReLu。将Cavg送入多层感知机,经过sigmoid激活函数,得到通道注意力映射MCMC与输入特征F相乘,得到新的特征计算过程为

(8)

式中,W0W1为多层感知机的权重;σ为sigmoid函数;⊗为元素级相乘。

通道注意力模块基于CBAM[30]方法,采用全局平均池化实现聚合运算。全局平均池化得到的特征信息对特征图中的每个特征都有反馈。多层感知机用来提取通道间的关系,学习每个通道的权重以获取通道域的注意力。

卷积是对局部区域进行操作,很难捕获到大范围或全局不同位置的关系。非局部操作[31]基于非局部均值滤波的思想,捕获不同位置间的关系。空间注意力模块使用非局部操作提升判别器的全局感知信息能力,如图5所示。

图5 空间注意力模块
Fig.5 Spatial Attenion Module

特征映射xRC×WH经过3个1×1卷积操作得到3个特征空间,分别是f(x)=w1xg(x)=w2xh(x)=w3xw1,w2,w3分别为1×1的卷积。将g(x)=w2x转置后与f(x)=w1x相乘,计算相似度,之后经过softmax归一化,其计算公式为

(9)

其中,Sq,p为位置pq之间的相关程度,空间注意力映射SRWH×HW,是由Sq,p组成的矩阵;f(xp)为特征映射x经过1×1卷积后得到的特征映射在位置p的信息;g(xq)为特征映射x经过1×1卷积后得到的特征映射在位置q的信息;f(xK)为特征映射x经过1×1卷积后得到的特征映射在位置K的信息,其中K列出了所有可能的位置。Sh(x)=w3x进行矩阵相乘,将其获取的结果与特征x相加就得到具有空间注意力的特征。使用空间注意力模块,对特征图中不同位置信息建立依赖联系,从而获取到全局特征信息。

2 实验结果及分析

2.1 实验数据集

为评估算法的有效性,在SYNTHIA-to-Cityscapes,GTA5-to-Cityscapes以及SYNTHIA到煤矿监控图像3个域适应任务上进行对比实验。Cityscapes数据集由5 000张真实城市环境中的驾驶场景图像组成。GTA5数据集由基于城市洛杉矶视频游戏的24 966张图像组成,其分辨率大小为1 914×1 052。SYNTHIA数据集是一个大型的虚拟城市真实感效果图集合。煤矿监控图像来自山西某煤矿,总计1 500张图像,图片尺寸为1 000×1 500。

2.2 实验环境

采用PyTorch深度学习框架在内存为16 G的NVIDIA 1080Ti GPU实现双对齐网络模型。训练过程中,采用SGD作为G的优化器,动量设为0.9。Adam作为DT的优化器,β1=0.90,β2=0.99。对于SGD优化器,初始学习速率设置为2.5×10-4,采用Ploy学习率策略进行衰减,其中初始学习速率乘以为当前迭代次数;max_iter为最大迭代次数;power用来控制学习率曲线的形状,power被设为0.9。对于判别器D的Adam优化器,将学习速率初始化为1×10-5,采用Ploy学习率策略进行衰减。对于T的Adam优化器,学习率初始化为1×10-4。进行100 k的迭代训练,用平均交并比(MIoU)指标进行评估。

2.3 结果分析

选用平均交并比(MIoU)衡量语义分割的分割精度,交并比(IOU)是预测语义分割结果与真实语义分割结果的交集除以它们的并集,平均交并比为所有语义类别的交并比的平均值。

首先选取GTA5-to-Cityscapes,SYNTHIA-to-Cityscape两个典型的域适应任务进行算法性能验证,将双对齐网络模型与AdaptSegNet[20],DCAN[32],CLAN[22]等算法进行对比。AdaptSegNet与CLAN是典型的基于生成对抗网络的域适应语义分割算法,采用对抗训练的方式学习域不变特征,实现特征级域适应。DCAN算法是基于风格迁移[33]的域适应语义分割算法,在图像生成器和分割网络中进行通道级的特征对齐。表1给出在GTA5-to-Cityscapes域适应任务上不同算法的域适应语义分割结果。表2给出在SYNTHIA-to-Cityscapes域适应任务上不同算法的域适应语义分割结果。

表1 GTA5到Cityscapes域适应语义分割结果

Table 1 Results of semantic segmentation adapting from GTA5 to Cityscapes

项目DCANAdaptSegNetCLANOurs道路88.586.587.1990.39人行道37.436.020.8334.34建筑79.379.981.0681.97围墙24.823.429.6028.18栅栏16.523.324.4926.70电线杆21.323.927.1532.78路灯26.335.234.4933.71标牌17.414.823.8322.32植被80.883.482.7483.35地形30.933.334.1130.02天空77.675.675.3178.19人员50.258.559.2754.67骑手19.227.626.5123.93汽车77.773.782.4283.09卡车21.632.532.4231.25公共汽车27.135.443.5337.05火车2.73.91.7211.19摩托车14.330.128.9922.21自行车18.128.120.7424.11平均交并比(MIoU)38.542.442.9743.70

注:加粗表示最佳结果,表2,3同。

表2 SYNTHIA到Cityscapes域适应语义分割结果

Table2 Results of semantic segmentation adapting from SYNTHIA to Cityscapes

项目DCANAdaptSegNetCLANOurs道路81.580.378.6780.03人行道33.433.734.0634.66建筑72.476.577.8777.17路灯8.64.94.8211.01标牌 10.57.18.9410.28植被71.073.678.0578.98天空68.780.582.5681.38人员51.554.257.0053.01骑手18.717.620.7715.91汽车75.370.665.5677.71公共汽车22.723.230.0221.79摩托车12.816.513.5025.55自行车28.131.330.6428.04平均交并比(MIoU)42.743.8544.8245.80

根据表1和2,对于GTA5-to-Cityscapes域适应任务,本文方法的平均交并比达到43.7%,与DCAN,AdaptSegnet,CLAN等方法相比,分别提高5.20%,1.30%,0.73%。本文算法在SYNTHIA-to-Cityscape的域适应任务上相比DCAN,AdaptSegNet,CLAN等方法,平均交并比分别提高3.10%,1.95%,0.98%。在典型的域适应任务上,本文模型的分割性能明显提升。双对齐网络模型将特征级域适应与像素级域适应相结合,不仅通过学习域不变特征提取源域和目标域的语义信息,同时减少源域图像与目标域图像之间纹理、光照等差异。注意力模块的引入可提高判别器的判别能力,通过分割网络和判别器的对抗训练增强分割网络的泛化能力。

图6为CLAN算法与双对齐网络模型在GTA5到Cityscapes域适应任务上的语义分割结果对比。CLAN算法是目前比较先进的域适应语义分割算法。观察图6,本文算法在能较好地分割出不同的语义类别目标,在道路、人行道等类别上优于CLAN算法。

图6 GTA5到Cityscapes域适应语义分割结果
Fig.6 Exameple results of adapted segmentation for GTA5-to-Cityscapes

根据表1和表2,Cityscapes作为目标域数据集时,在GTA5数据集上训练的模型比在SYNTHIA数据集上训练的模型获得更好的分割性能。对数据集进行比较,有2个方面的原因:① GTA5中有更多的训练样本;② Cityscapes数据集的图像多是在白天采集的,而SYNTHIA的图像大多是黑夜中的场景。

煤矿环境中光线昏暗,对比度低。与GTA5数据集相比,SYNTHIA数据集中大多数为黑夜中的场景。从图像光照、背景等因素考虑,煤矿监控图像与SYNTHIA的域间差异更小,跨域语义分割的性能也会较好。当煤矿监控图像作为目标域数据时,笔者选择SYNTHIA数据集作为源域数据。表3 为SYNTHIA到煤矿环境监控图像的域适应语义分割结果。

表3 SYNTHIA到煤矿环境监控图像的域适应语义分割结果

Table 3 Results of semantic segmentation adapting from SYNTHIA to Coal Mine

项目DCANAdaptSegnetCLANOurs巷道70.5072.4076.2086.20围栏17.1012.109.3020.50电灯22.1020.3025.9019.50标牌12.3411.9011.7410.80人员43.0842.1252.0860.06矿车21.3220.7021.0032.50平均交并比(MIoU)31.0729.9232.7038.26

对于SYNTHIA到煤矿环境监控图像的域适应任务,双对齐网络模型的平均交并比为38.26%,与AdaptSegNet[20],DCAN[32],CLAN[22]方法相比,分别提高7.19%,8.34%,5.56%。本文方法在特征级域适应网络的基础上引入像素级域适应网络,扩大应用场景。AdaptSegNet[20]与CLAN[22]方法使用对抗网络进行特征级域适应,通常会去除一些域差异较大的样本,不适用于域间差异较大的煤矿环境监控图像域适应语义分割问题。DCAN方法使用通道级的特征对齐方法进行像素级域适应语义分割,分割性能偏低。本文方法从特征级对齐和像素级对齐2个角度出发,扩大应用场景的同时提升分割性能。煤矿环境监控图像存在外观相似的不同语义类别目标易混淆的问题,导致域适应语义分割有一定困难。在像素级域适应网络中,使用具有煤矿环境监控图像风格的源域图像训练分割网络G,提高语义类别辨识。

图7为DCAN,AdaptSegNet,CLAN与双对齐网络模型的煤矿监控图像语义分割结果对比。DCAN,AdaptSegNet,CLAN等算法分割结果比较粗糙,容易将不同的语义类别混淆,产生错误的语义分割结果。本文模型的分割结果比较清晰,对不同语义目标的轮廓预测比较准确。

图7 SYNTHIA到煤矿环境监控图像的域适应语义分割效果
Fig.7 Exameple results of adapted segmentation for SYNTHIA-to-Coal Mine

参数量表示模型参数的数量,通常用来衡量模型大小。为验证本文方法在模型尺寸与语义分割性能之间可以达到平衡,在SYNTHIA-to-Coal Mine域适应任务上进行实验,4种方法的参数量及语义分割性能结果对比见表4。DCAN,AdaptSegNet,CLAN以及双对齐网络等方法以DeepLab-v2为主干网络,源域图像的尺寸大小为1 024×608,目标域图像的尺寸大小为800×1 000。

表4 4种方法的参数量

Table 4 Number of parameters of 4 methods

方法DCANAdaptSegNetCLANOurs参数量/M137.3101.7115116.7MioU31.0729.9232.7038.26

根据表4,从参数量指标分析,4种方法的参数量由高到低依次为DCAN、本文方法、CLAN、 AdaptSegNet,其中AdaptSegNet与DCAN方法的语义分割精度较低。与CLAN方法相比,本文方法的参数量与其相差较少,语义分割性能明显提高。从参数量与平均交并比两方面因素综合来看,与DCAN,CLAN,AdaptSegNet相比,本文方法的综合性能较好。本文方法在不增加计算负担的前提下,跨域语义分割性能得到明显提升。

2.4 消融实验

为验证双对齐网络中像素级域适应网络与注意力模块的有效性,在GTA5-to-Cityscapes域适应任务上进行消融实验。表5显示不同设置下的实验结果,基准网络为单层的AdaptSegNet[20]网络。AdaptSegNet模型采用对抗训练的方式进行特征级域适应。

表5 在GTA5-to-Cityscapes域适应任务上双对齐网络的 消融实验结果

Table 5 Ablation experimental results of Dual Alignment Networks on GTA5-to-Cityscapes domain adaptation task

方法像素级域适应网络注意力模块MIoUGain基准网络41.2—基准网络 +像素级域适应网络√43.2+2.0基准网络+注意力模块√42.9+1.7基准网络+ 像素级域适应网络+注意力模块√√43.7+2.5

注:“√”表示添加该模块进行训练,表6,7同。

根据表5,使用基准网络进行域适应语义分割,其平均交并比为41.2%。引入像素级域适应网络,平均交并比为43.2%,与基准网络相比,语义分割性能提高2%。分割性能提升的主要原因是像素级域适应网络对源域图像进行风格迁移,使其在纹理、背景、光照等方面与目标域图像接近,从输入层面上减少域偏移。在判别器D中添加注意力模块,平均交并比提高1.7%,由此验证将注意力机制应用到判别器中,不仅提高判别器的判别力,同时增强了分割网络的泛化能力。基准网络同时引入像素级域适应网络和注意力模块,平均交并比为43.7%,语义分割性能提高2.5%,表明本文算法在域适应语义分割任务上的有效性。

为讨论像素级域适应网络、注意力模块对减少煤矿监控图像与合成图像的域间差异的作用,本文在SYNTHIA-to-Coal Mine域适应任务上进行消融实验。表6显示不同设置下的实验结果,以单层的AdaptSegNet[20]网络为基准网络。

表6 在SYNTHIA到煤矿监控图像域适应任务上双对齐 网络的消融实验结果

Table 6 Ablation experimental results of Dual Alignment Networks on SYNTHIA-to-Coal Mine

方法像素级域适应网络注意力模块MIoUGain基准网络29.92—基准网络 +像素级域适应网络√36.4+6.48基准网络+注意力模块√35.9+5.98基准网络+ 像素级域适应网络+注意力模块√√38.26+8.34

根据表6,使用基准网络对煤矿监控图像进行语义分割,其平均交并比为29.92%。基准网络引入像素级域适应网络,平均交并比为36.4%。语义分割性能提高6.48%,主要是因为像素级域适应网络将源域图像风格转换为煤矿监控图像风格。使用具有煤矿环境风格的源域图像进行训练时,分割网络学习到煤矿环境监控图像光照、纹理等特征。在判别器D中添加注意力模块,平均交并比提高5.98%。注意力模块通过关注重要特征并抑制无关特征来增强特征的表征能力,进一步提高判别器的判别能力。随着分割网络与判别器的不断对抗训练,分割网络的泛化能力也得以提高。基准网络同时引入像素级域适应网络和注意力模块,平均交并比为38.26%,语义分割性能提高8.34%,表明本文算法在煤矿监控图像语义分割任务上的有效性。

为讨论注意力模块中通道注意力模块和空间注意力模块的作用,笔者在GTA5-to-Cityscapes域适应任务上进行消融实验。表7显示不同设置下的实验结果,基准网络采用单层的AdaptSegNet[20]网络。

表7 注意力模块的消融实验结果

Table 7 Ablation experiment results of the attention module

方法通道注意力模块空间注意力模块MIoUGain基准网络41.2—基准网络 +通道注意力模块√42.0+0.8基准网络 +空间注意力模块√42.1+0.9基准网络+通道注意力模块+空间注意力模块√√42.9+1.7

根据表7,使用基准网络进行域适应语义分割,平均交并比为41.2%。判别器中添加通道注意力模块,平均交并比为42.0%。与基准网络相比,语义分割性能提高0.8%。语义分割性能提升的主要原因是通道注意力模块为不同通道的特征分配不同的权重,减少无关特征对判别器的影响。判别器中添加空间注意力模块后,平均交并比为42.1%。与基准网络相比,语义分割性能提高0.9%。空间注意力模块采用非局部操作增强判别器的全局感知信息能力,提高判别器的判别能力。基准网络同时引入通道注意力模块和空间注意力模块,平均交并比为42.9%。与基准网络相比,语义分割性能提高1.7%,由此验证通道注意力模块与空间注意力模块相结合可以提高分割网络的泛化能力。

3 结 论

(1)所提的像素级域适应网络能较好地解决合成图像与煤矿监控图像域间差异问题,从输入层面上减少域间差异。

(2)采用具有煤矿监控图像风格的源域图像训练分割网络,使其学习到煤矿监控图像纹理、光照等特征,提高煤矿场景监控图像语义类别辨识度,较好地解决不同语义类别目标易混淆问题。

(3)注意力机制应用到判别器中,可提高判别器的判别能力,进而增强分割网络的泛化能力。

(4)双对齐网络模型在SYNTHIA到煤矿场景域适应任务的平均交并比达到38.26%,优于DCAN,AdaptSegNet,CLAN等算法,语义分割性能明显提升,较好地分割出煤矿监控图像中不同尺度的人员、巷道、电灯等类别。

参考文献(References):

[1] LIN Kunqi,HUANG Wenhui,ROBERT B Finkelman,et al.Distribu-tion,modes of occurrence,and main factors influencing lead enrichment in Chinese coals[J].International Journal of Coal Science & Technology,2020,7(1):1-18.

[2] JU Yang,ZHU Yan,XIE Heping,et al.Fluidized mining and in-situ transformation of deep underground coal resources:A novel approach to ensuring safe,environmentally friendly,low-carbon,and clean utilisation[J].International Journal of Coal Science & Technology,2019,6(2):184-196.

[3] 王国法,杜毅博,任怀伟,等.智能化煤矿顶层设计研究与实践[J].煤炭学报,2020,45(6):1909-1924.

WANG Guofa,DU Yibo,REN Huaiwei,et al.Top level design and practice of smart coal mines[J].Journal of China Coal Society,2020,45(6):1909-1924.

[4] 曹玉超,范伟强.基于不同深度识别算法的矿井水位标尺刻度识别性能分析与研究[J].煤炭学报,2019,44(11):3529-3538.

CAO Yuchao,FAN Weiqiang.Performance analysis and research of mine water level scale recognition based on different depth recognition algorithms[J].Journal of China Coal Society,2019,44(11):3529-3538.

[5] 马宏伟,王岩,杨林.煤矿井下移动机器人深度视觉自主导航研究[J].煤炭学报,2020,45(6):2193-2206.

MA Hongwei,WANG Yan,YANG Lin.Research on depth vision based mobile robot autonomous navigation in underground coal mine[J].Journal of China Coal Society,2020,45(6):2193-2206.

[6] 司垒,王忠宾,熊祥祥,等.基于改进U-net网络模型的综采工作面煤岩识别方法[J].煤炭学报:1-12[2021-08-16]. https://doi.org/10.13225/j.cnki.jccs.2020.1011.

SI Lei,WANG Zhongbin,XIONG Xiangxiang,et al.Coal-rock recognition method of fully-mechanized coal mining face based on improved U-net network model[J].Journal of China Coal Society:1-12[2021-08-16].https://doi.org/10.13225/j. cnki. jccs. 2020.1011.

[7] 李晓宇,杨维,刘斌,等.基于超像素粒化与同质图像粒聚类的矿井人员图像分割方法[J].煤炭学报,2021,46(4):1341-1354.

LI Xiaoyu,YANG Wei,LIU Bin,et al.Segmentation method for mine personnel images based on superpixel granulation and clustering of homogenous image granules[J].Journal of China Coal Society,2021,46(4):1341-1354.

[8] BASU Sweta,SUTAPA Pramanik,SANGHAMITRA Dey,et al.Fire monitoring in coal mines using wireless underground sensor network and interval type-2 fuzzy logic controller[J].International Journal of Coal Science & Technology,2019,6(2):274-285.

[9] LONG J,SHELHAMER E,DARRELL T.Fully convolutional networks for semantic segmentation[A].2015 Ieee Conference on Computer Vision and Pattern Recognition[C].Boston:2015:3431-3440.

[10] CHEN Liang Chieh,GEORGE Papandreou,IASONAS Kokkinos,et al.Semantic image segmentation with deep convolutional nets and fully connected CRFs[J].Computer Science,2014(4):357-361.

[11] CHEN L C,PAPANDREOU G,KOKKINOS I,et al.DeepLab:Semantic image segmentation with deep convolutional nets,atrous convolution,and fully connected CRFs[J].Ieee Transactions on Pattern Analysis and Machine Intelligence,2018,40(4):834-848.

[12] CHEN Liang Chieh,GEORGE Papandreou,FLORIAN Schroff,et al.Rethinking atrous convolution for semantic image segmentation[A].Computer Vision and Pattern Recognition[C].Honolulu:2017.

[13] YU Changqian,WANG Jingbo,PENG Chao,et al.Learning a discriminative feature network for semantic segmentation[A]. Computer Vision and Pattern Recognition[C].Salt Lake City:2018:1857-1866.

[14] YANG Maoke,YU Kun,ZHANG Chi,et al.DenseASPP for semantic segmentation in street scenes[A].Computer Vision and Pattern Recognition[C].Salt Lake City:2018:3684-3692.

[15] 袁壮,董瑞,张来斌,等.深度领域自适应及其在跨工况故障诊断中的应用[J].振动与冲击,2020,39(12):281-288.

YUAN Zhuang,DONG Rui,ZHANG Laibin,et al.Deep domain adaptation and its application in fault diagnosis across working conditions[J].Journal of Vibration and Shock,2020,39(12):281-288.

[16] LONG Mingsheng,CAO Yue,WANG Jianmin,et al.Learning transferable features with deep adaptation networks[A].International Conference on Machine Learning[C].Lille:2015:97-105.

[17] SUN Baochen,KATE Saenko.Deep coral:Correlation alignment for deep domain adaptation[A].European Conference on Computer Vision[C].Amsterdam:2016:443-450.

[18] KANG Guoliang,LU Jiang,YANG Yi,et al.Contrastive adaptation network for unsupervised domain adaptation[A].Computer Vision and Pattern Recognition[C].Long Beach:2019:4893-4902.

[19] HOFFMAN Judy,WANG Dequan,YU Fisher,et al.FCNs in the wild:Pixel-level adversarial and constraint-based adaptation[A]. Computer Vision and Pattern Recognition[C].Las Vegas:2016.

[20] TSAI Yihsuan,HUNG Weichih,SAMUEL Schulter,et al.Learning to adapt structured output space for semantic segmentation[A]. Computer Vision and Pattern Recognition[C].Salt Lake City:2018:7472-7481.

[21] VU Tuanhung,JAIN Himalaya,BUCHER Maxime,et al.DADA:Depth-aware domain adaptation in semantic segmentation[A]. Computer Vision and Pattern Recognition[C].Long Beach: 2019.

[22] LUO Yawei,ZHENG Liang,GUAN Tao,et al.Taking a closer look at domain shift:Category-level adversaries for semantics consistent domain adaptation[A].Computer Vision and Pattern Recognition[C].Long Beach:2019:2507-2516.

[23] VU Tuanhung,JAIN Himalaya,BUCHER Maxime,et al.ADVENT:Adversarial entropy minimization for domain adaptation in semantic segmentation[A].Computer Vision and Pattern Recognition[C]. Salt Lake City:2018.

[24] WU Zuxuan,WANG Xin,GONZALEZ Joseph E,et al.ACE:Adapting to changing environments for semantic segmentation[A]. Computer Vision and Pattern Recognition[C].Long Beach:2019.

[25] CHANG Weilun,WANG Huipo,PENG Wenhsiao,et al.All about structure:Adapting structural information across domains for boosting semantic segmentation[A].Computer Vision and Pattern Recognition[C].Long Beach:2019:1900-1909.

[26] ZOU Yang,YU Zhiding,KUMAR B V K Vijaya,et al.Domain adaptation for semantic segmentation via class-balanced self-training[A].Computer Vision and Pattern Recognition[C].2018.

[27] MECHREZ Roey,TALMI Itamar,ZELNIKMANOR Lihi.The contextual loss for image transformation with non-aligned data[A]. European Conference on Computer Vision[C].Munich:2018:800-815.

[28] LUO Yawei,LIU Ping,GUAN Tao,et al.Significance-aware information bottleneck for domain adaptive semantic segmentation[A]. 2018 IEEE Conference on Computer Vision[C].Montrea:2019:6777-6786.

[29] FU Jun,LIU Jing,TIAN Haijie,et al.Dual attention network for scene segmentation[A].Computer Vision and Pattern Recognition[C].Long Beach:2019:3146-3154.

[30] WOO Sanghyun,PARK Jongchan,LEE Joonyoung,et al.CBAM:Convolutional block attention module[A].European Conference on Computer Vision[C].Munich:2018:3-19.

[31] WANG Xiaolong,ROSS Girshick,ABHINAV Gupta,et al.Non-local neural networks[A].Computer Vision and Pattern Recognition[C].Salt Lake City:2018:7794-7803.

[32] WU Zuxuan,HAN Xintong,LIN Yenliang,et al.DCAN:Dual channel-wise alignment networks for unsupervised scene adaptation[A]. European Conference on Computer Vsion[C].Munich:2018:518-534.

[33] HUANG X,BELONGIE S.Arbitrary style transfer in real-time with adaptive instance normalization[A].Proceedings of the IEEE International Conference on Learning Representations[C].Toulon:2019:1-15.