基于残差神经网络的矿井图像重构方法

张帆1,2，徐志超1

(1.中国矿业大学(北京)机电与信息工程学院，北京 100083; 2.中国矿业大学(北京)智慧矿山与机器人研究院，北京 100083)

摘要:针对煤矿井下噪声对可视化作业环境扰动影响，面向智能开采对井下作业目标的图像清晰化需求，研究基于机器视觉的矿井视频图像重构理论与方法，对提高矿井智能监控与安全开采技术具有重要意义。传统的视频监控系统采用经典的Nyquist采样定理来解决视频图像的信号采集、压缩和编解码问题，但矿井视频图像数据庞大，采用传统的编解码方法不仅浪费大量采样资源及增大系统开销，而且难以解决矿井视频图像重构时出现的信号保真度低、图像边缘模糊和视频传输时延等问题，其直接影响矿井智能监控系统性能与视频传输质量。针对矿井视频监控图像重构中存在的信号保真度不足及图像边缘模糊等问题，提出一种基于残差网络的图像压缩与重构方法。该方法通过建立一种新的残差神经网络结构，采用下采样矩阵将矿井图像进行压缩，再通过多次上采样将特征图变换为与原始图像相同大小的特征图，并使用残差网络块对其优化，最后利用优化后的重构网络将特征图聚合成重构图像。提出融合离散小波结构相似度损失与均方误差损失的损失函数方法，并据此训练网络参数。为评价本文所提出方法的有效性，实验选取了基于压缩感知的D-AMP，TVAL3算法和基于深度学习的ReconNet算法与之进行对比。结果表明，较小压缩比条件下对矿井图像重构，本文方法在结构相似度和峰值信噪比性能方面均优于其他算法;在噪声环境下，本文方法相较于其他方法，图像重构的峰值信噪比与结构相似度受噪声强度扰动较小，对噪声具有较强鲁棒性，较显著增强矿井重构图像的保真度和清晰度;在图像重构的时间复杂度方面，本文方法用时最短，有助于改善矿井视频监控系统的实时性。

关键词:矿井智能监控;残差神经网络;DW-SSIM;压缩感知;图像重构

实现井下工作面少人乃至无人作业是安全开采和智慧矿山建设最重要的目标之一，研究矿井智能视频监控系统优化方法及其关键技术，对促进矿井智能安全开采技术发展及智慧矿山建设具有十分重要的意义[1-3]。传统的视频监控系统中图像压缩方法采用经典的Nyquist采样定理来解决视频图像的信号采集、编码和解码问题。然而，矿井视频图像的数据量大，采用传统的压缩方法不仅浪费大量的采样资源，而且在井下通信环境带宽资源有限条件下使得系统开销较大。采用常规的图像编解码方法难以解决视频图像压缩处理时出现的图像模糊、视频传输延迟等问题，直接影响矿井视频图像的实时传输和智能监控性能[4]。

对上述问题，现有的解决方法或把矿井图像的重构看成凸优化问题，或通过稀疏逼近间接解决图像的重构问题，但上述方法均涉及重构问题的迭代求解，其重构算法的运算时间较长，依然给矿井视频监控系统应用带来实时性问题。

近年流行的基于数据驱动的深度学习方法，为解决图像压缩与重构的问题提供了新的技术思路。卷积神经网络在分类识别、目标检测和图像重构等应用研究中引起广泛关注[5-8]。在深度学习的框架中，编码器、解码器的参数均通过大量数据学习得出。其优势在于一旦模型训练完成，其重构用时短，且能得到优于传统压缩感知重构方法所获得的图像复原质量。MOUSAVI等提出的DeepInverse[5]尝试了使用三层卷积层代替传统的迭代方法重构图像，其重构时间可达到低于传统方法的百分之一的水平，在实时性方面表现出色。KULKARNI等提出的ReconNet[8]使用六层卷积层对图像进行分块压缩感知，图像的重构质量较DeepInverse有明显提升，表明适当提升网络层数对提升重构质量有帮助。但ReconNet的压缩感知分块处理意味着每个图像块的重构结果拼接后，分块之间会出现假轮廓，即使进一步进行去噪处理也不能完全消除假轮廓对图像质量的负面影响。虽然现有的深度学习方法极大地推进了图像压缩与重构的发展，但是通过现有方法得到的重构图像中，图像的保真度仍有欠缺，特别是物体与物体边界较为模糊。近年来流行的基于深度学习的图像超分辨率成像方法，给矿井图像的压缩与重构方法提供了理论借鉴。

笔者根据图像超分辨率成像方法，基于深度学习实现图像的压缩与重构，通过建立一种新的网络结构，据此对矿井原始图像进行采样;在此基础上提出采用离散小波结构相似度(Discrete Wavelet Similarity,DW-SSIM)计算损失函数的方法，通过将DW-SSIM损失与均方误差损失相融合，利用融合后的损失函数训练网络，从而改善重构信号的保真度、解决图像边缘模糊等问题。实验验证了本文方法的有效性。

1 相关理论及问题描述

1.1 压缩感知与信号重构

根据Donoho压缩感知理论[8]，信号的采样模型可表示为

y=Φx

(1)

式中，x∈ width=11,height=14,dpi=110 N为待压缩采样的原始稀疏信号;测量矩阵Φ∈M×N对信号进行降采样;y是经过压缩采样得到的信号。

当x可以被稀疏表示且Φ满足约束等距性质(RIP)时[9-12]，信号x的重构可以看成是对信号稀疏逼近的凸优化问题:

(2)

式中，λ为拉格朗日乘子；Ψs=x，s为x在稀疏基Ψ的稀疏表示；当解得s=s*时，可以进一步使用Ψs=x求出对原始信号的恢复。由于对此问题的求解，无论是使用贪婪方法的匹配追踪[12-14]还是基于凸优化的基追踪[12-13,15]，其重构过程都涉及多次迭代，因而图像重构耗时大大增加，无法应用于实时性要求高的场合。因此需要寻求一种能快速进行图像重构的方法。

1.2 图像重构与网络训练

如果把图像的重构看作回归问题，则可利用卷积神经网络来重构图像，即通过网络建立输入与输出之间的映射关系f，使得

(3)

其中，为对输入图像x的逼近。对于特定的输入样本y，通过网络学习，训练样本，输出y所对应的原始图像x的逼近值对x的逼近可使用反向传播算法[16]实现。

假设将前向传播的实际输出和目标输出x的误差作为反馈更新网络中神经元的权重，并通过损失函数来求解实际输出和目标输出x的误差，则每个训练周期网络的权重更新可表示为

(4)

式中，L为由损失函数计算所得的误差;w为网络中各个神经元的权重;t为当前的训练周期;α为学习率(0<α<1)，是调节权重更新大小的常数。

考虑到Adam方法[17]对凸优化和非凸优化问题均具有良好的鲁棒性和适用性，因此本文采用Adam梯度下降方法对网络进行优化。进一步地，采用反向传播更新网络权重，使得x与的误差在有限周期达到足够小时，网络训练完成，从而得到损失函数的最优解。

2 基于卷积神经网络的重构算法

2.1 矿井图像重构模型

获取一幅矿井图像x，对这幅图像进行压缩采样得到压缩编码y=f1(x)，进而从y中恢复出矿井图像且x与的误差足够小。

考虑到f1和f2的关联，可以将其置于同一个网络中，通过“端到端”的训练方式得到f1和f2，使得网络可以扩展成既能学习编码、也能够学习重构图像的形式:

(5)

受残差网络ResNet[18]和超分辨率图像成像方法[19]的启发，本文提出一种新的矿井图像重构模型，如图1所示。该模型由编码网络和重构网络两部分组成。

图1 矿井图像压缩重构模型

Fig.1 Block diagram for the proposed compressing and reconstruction network

(1)压缩编码:压缩编码网络接受100像素×100像素的灰度图像作为输入，通过下采样矩阵与向量化了的输入图像进行矩阵乘法，获得对原始图像的编码，即

y=f1(x)=Ax+b

(6)

式中，A为下采样矩阵;b为偏置向量。本文使用全连接层实现映射f1，因此A和b都是待优化的网络参数，二者均在训练开始前用随机数初始化。

(2)图像重构:本文将图像重构看成是矿井图像特征提取的逆过程，而矿井图像特征提取网络通常包含多个下采样层，因此本文通过多次上采样，将特征图变换为与原始图像具有相同高和宽的特征图。图中所示3次上采样输出高×宽依次为50像素×50像素、75像素×75像素、100像素×100像素的特征图，采用最近邻插值法对上述特征图进行上采样操作。

进一步地，在多次上采样之间使用残差网络块对重构网络进行优化。本文使用的残差网络块重构网络如图1所示，残差网络块有结构1和结构2两种组成形式。两种结构的残差网络块，其卷积层、批标准化层[20]和LeakyReLU[21]非线性激活层分别用符号Conv，BN和LReLU表示。残差网络块中的卷积层的卷积核大小均为3×3。每层卷积层由96个卷积核组成。其中，结构1的组成更为复杂，能够更好地对两次上采样之间的特征图进行优化;而结构2采用直接跨越连接方式有利于梯度下降的快速传播，能加快重构网络的收敛。本文交替使用这两种残差网络块，以获得网络优化效果和网络训练收敛速度的平衡。

最后利用优化后的重构网络将特征图聚合成重构图像。

上述过程用公式表示为

(7)

式中，符号“*”为卷积;gi(i=1,2,…,n)为残差网络块处理输入的特征图并进行上采样;Wa为深度为1的卷积层，用于将特征图聚合为重构图像。

2.2 损失函数

2.2.1 l2损失

损失函数是卷积神经网络训练的优化目标。最常用到的损失函数是l2损失，在文献中通常以峰值信噪比(PSNR)及均方误差(MSE)的形式出现[22]。

图像信号的PSNR定义为

(8)

(9)

式中，r为图像像素的动态范围;MSE为信号的均方误差;N为信号的长度;分别为输入信号与重构信号。

式(9)中MSE一定程度上描述了两个信号之间的差异程度，但它并不能完全反映重构信号的保真度。这是因为用MSE描述图像信号之间的差异时，信号的保真度与信号中各成分的时空关系被忽视[22]。当误差信号的能量之和相同或相近时，将会出现看起来大不相同的两幅图像具有相同或相近的MSE情况。

2.2.2 结构相似度

为了解决l2损失不能完全反映图像重构的保真度问题，学者们又提出了其他的图像质量评估方法，其中结构相似度指数(SSIM)[22-24]使用最为广泛。

假设x和y是两幅高和宽相同的图像，SSIM表征了两幅图像之间亮度l(x,y)、对比度c(x,y)和结构s(x,y)的相似性，则SSIM表示为

SSIM(x,y)=l(x,y)c(x,y)s(x,y)=

(10)

式中，μx和μy分别为x和y的均值;σx和σy分别为x和y的标准差;σxy为样本的互相关。Ci(i=1,2,3)为小的正常数，本文中SSIM计算取C1=C2=C3=0.01。

SSIM一定程度上弥补了l2损失的不足，然而图像的相对平移、轻微缩放、轻微旋转都会较大影响SSIM的数值。针对这些问题，SAMPAT M P等提出了复小波结构相似度(CW-SSIM)[25]。CW-SSIM虽然对微小的旋转、平移具有鲁棒性，但是其引入的复数运算在计算时开销较大，因此也不宜作为损失函数使用。

2.2.3 离散小波结构相似度

本文提出一种基于离散小波变换的结构相似度计算方式，称为离散小波结构相似度(Discrete Wavelet Structural Similarity)，简称DW-SSIM。

对于二维的矿井图像信号f(x,y)∈ width=11,height=14,dpi=110 N×N，可用离散小波将其分解为

(11)

其中，j0=0;N为图像的边长;Wφ,Wψ为分解系数;φ(x,y)为haar尺度函数;ψ(x,y)为haar小波函数;H，V，D为不同函数名的标记。

(12)

i={H,V,D}

(13)

根据采用多分辨率分析的haar小波分解与重构所包含的高频信号和低频信号，则矿井图像的DW-SSIM表示为

(14)

其中，为DW-SSIM的数值;常数c为高频相似度的权重，本文取c=0.8，以期使计算结果对高频成分的相似程度更加敏感;S1，S2分别为矿井重构图像与原始图像在低频和高频部分的相似度。

(15)

(16)

式中，J为图像多分辨率分解的最大分解层级，本文取J=3;符号W(1)，W(2)分别为原始图像和重构图像的小波变换系数;K为防止算术不稳定的正常数，本文取K=0.01。

2.2.4 本文所采用的损失函数

鉴于l2损失和结构相似度在图像质量评估方面的优点，本文融合上述2种图像评估方法作为损失函数，融合后的损失函数表示为

(17)

式中，分别为矿井重构图像和矿井原始图像;β1，β2为融合权重，本文取β1=β2=0.5，以期平衡l2损失和结构相似度损失对总损失的贡献。

式(17)中第一项为l2损失，

(18)

其中，LF为对均方误差函数的归一化，LF的值域是[0,1]。式(17)中第二项为结构相似度损失，

(19)

其中，为矿井图像的DW-SSIM，LS的值域为[0,1]。

3 实验与分析

为了验证算法的有效性，本文进行了仿真实验。将本文方法与近年来较为知名的ReconNet[8],D-AMP[26]和TVAL3[27]算法进行了测试比较。这些算法的实现均根据作者提供的网站获取，并且保持了其设置的默认值。实验平台采用Nvidia Tesla K80，Intel(R)Xeon(R)CPU和12 GB内存的Ubuntu 18.04.2。使用的深度学习软件包是Pytorch 1.0.1。

我们采集了某矿井不同场景的监控视频，如图2所示，并抽取了视频序列中的关键帧得到47 493张彩色图像。首先对这些图像进行了灰度化，并进行了100像素×100像素的中心裁剪作为本文算法的训练数据集。通过水平翻转、垂直翻转来进行数据增补。在网络训练时，选取的批次大小为64。

在同样的实验条件下，本文考察了上述几种算法的矿井图像重构质量与重构时间。其中，重构质量通过PSNR和SSIM进行评估。重构时间复杂度则由各种重构算法的运算耗时来表征。在不同压缩比条件下，利用各种算法对测试图像进行重构，图像重构的PSNR和SSIM分别见表1，2，其中，r为压缩比。

图2 本文实验所选用的测试场景

Fig.2 Test scenes for the experiments

表1 不同算法在测试图像重构的PSNR

Table 1 PSNR results for different algorithms on test images dB

场景算法r=0.25r=0.20r=0.15r=0.10r=0.04r=0.01D-AMP[25]21.8121.8620.9019.1014.368.14(a)ReconNet[5]18.7818.3517.6717.2416.2614.52TVAL3[26]12.5210.949.878.1710.4812.50本文方法21.7821.8421.4020.0518.0817.34D-AMP35.3134.3431.2129.6411.917.68(b)ReconNet26.2424.6723.5821.8418.8915.42TVAL317.0819.9618.2518.8316.3513.34本文方法33.1028.2432.2129.9926.5419.70D-AMP36.5735.7133.7830.5217.483.60(c)ReconNet26.1824.1623.8321.3719.1815.80TVAL310.2410.2910.339.9610.936.43本文方法36.7527.8135.9331.2128.8621.27D-AMP31.4629.9928.8026.0710.877.03(d)ReconNet22.3321.3820.7619.7216.8314.47TVAL322.8824.6620.9818.5112.9613.87本文方法27.8426.1427.8124.5623.3919.19D-AMP29.6828.0226.3024.5117.638.76(e)ReconNet23.8922.9522.1321.2119.2417.65TVAL317.2716.1714.8814.3513.1613.71本文方法27.6727.2727.1224.9522.4620.03

表2 不同算法在测试图像重构的SSIM

Table 2 SSIM for different algorithms on the test images

场景算法r=0.25r=0.20r=0.15r=0.10r=0.04r=0.01D-AMP[25]0.68540.67930.63760.51480.17350.0363(a)ReconNet[5]0.54700.49470.43770.42670.33710.2431TVAL3[26]0.38300.31460.25740.18380.21100.1608本文方法0.73200.74760.70490.63030.49230.3498D-AMP0.95940.95210.91770.89340.14590.0544(b)ReconNet0.87370.83080.79130.76310.61670.4181TVAL30.76220.75400.72820.66820.52520.4313本文方法0.96950.96590.96570.95250.90240.6631D-AMP0.96680.95950.94420.89930.37860.0121(c)ReconNet0.92270.89760.86030.81620.62520.4091TVAL30.68720.67400.63210.57910.48480.2248本文方法0.97490.96820.97070.94710.87480.5321D-AMP0.92020.89380.87110.82630.17660.0581(d)ReconNet0.72360.67230.65680.63810.52390.3894TVAL30.77790.75590.67600.56260.42520.4100本文方法0.92030.91450.91580.87720.82910.6939D-AMP0.87110.67930.80270.71870.28290.0634(e)ReconNet0.77280.73190.67710.65220.54600.4318TVAL30.54450.48680.50690.41270.37940.3372本文方法0.87930.87640.86390.80580.69210.5359

从表1可以看出，当压缩比≥0.20时，在测试的多数矿井图像上D-AMP方法取得了最高的PSNR值，其次是本文方法，而ReconNet和TVAL3相对较差;而当压缩比在0.10～0.15时，本文方法在测试的多数矿井图像上取得最高PSNR值，其次才是DAMP，ReconNet和TVAL3依然相对较差;尤其是，当压缩比≤0.04时，本文方法在所有的测试图像上均取得最优的PSNR值，ReconNet次之，而D-AMP和TVAL3相对较差。由表1进一步分析可知，随着压缩比r的逐渐减小，上述重构方法的PSNR均呈现下降趋势，其中D-AMP方法和TVAL3方法下降较为显著，而本文方法下降较缓慢，这是因为当压缩比非常小时，本文算法在获得极其稀少的矿井原始图像信息情况下，能够通过深度学习的方法获取矿井图像的内在结构和特征，从而更好地重构矿井原始图像。

此外，由表2进一步分析可知，本文方法在不同压缩比条件下，在所有测试图像上均取得了最高SSIM，这是因为本文方法在训练网络时采用了离散小波结构相似度损失作为损失函数的一部分，从而使本文方法在保留重构图像的细节和结构特征方面较其他方法更有优势。

综合表1,2，说明本文方法具有良好的图像重构能力，尤其是在小压缩比情况下，本文方法在峰值信噪比和结构相似度方面明显优于其他算法。

图3展示了测试图像在压缩比r=0.04时利用不同算法的重构结果。其中绿色矩形框中的图像区域为红色矩形框中区域放大的结果。由图3可以看出，在r=0.04压缩比条件下，使用本文方法得到的重构图像，无论是PSNR还是SSIM都远高于其他方法。进一步仔细观察图2所示的重构结果，可以发现本文方法能更好保留了图像中的轮廓细节，特别是场景(b)中的矿灯和矿工服的反光条，以及场景(d)中的矿用传送带边缘较为清晰，而其他方法的重构结果则相对模糊。相较于本文方法，而从其他方法的重构图像中分辨出前景和背景则显得有些困难。因此，上述实验进一步说明，在小压缩比情况下，与其他方法相比，本文方法的图像重构清晰度更好。

图3 不同算法对场景(a),(b),(c),(d),(e)的重构图像，所有图像均以压缩比r=0.04的采样重构

Fig.3 Reconstructed images for scene (a),(b),(c),(d),(e)by different algorithms,when the compression ratio is r=0.04

图4给出了测试图像在压缩比r=0.10时的重构图像。在此压缩比条件下，尽管在场景(a)和场景(d)的图像重构中，本文方法得到的重构PSNR值比D-AMP低，但是观察红色矩形框标记的区域可以明显看出，本文方法的重构图像对图像边缘的保留更完好。而且，本文方法在这一压缩比下的重构SSIM仍高于其他方法。图4进一步表明，在较大压缩比情况下，本文方法仍然能取得较高的图像保真度，特别是能保持矿井图像物体边缘的清晰度，这对获取井下环境视频监控的低分辨率矿井图像的前景和背景至关重要。

图4 不同算法对场景(a),(b),(c),(d),(e)的重构图像，所有图像均以压缩比r=0.10的采样重构

Fig.4 Reconstructed images for scene (a),(b),(c),(d),(e)by different algorithms,when the compression ratio is r=0.10

表3给出了在不同压缩比条件下几种重构方法的平均运算耗时比较，但需要指出的是，D-AMP和TVAL3算法只能在CPU环境下运行，而ReconNet算法和本文方法可在GPU或CPU上运行。从表3可以看出，在CPU平台上，TVAL3重构算法运算耗时最短，ReconNet算法和本文方法次之，而采用D-AMP重构算法运算耗时最长，这是因为D-AMP在图像重构过程中涉及的迭代次数过多，因此运算耗时较长。TVAL3算法对迭代过程进行了优化，因而耗时短。ReconNet算法和本文方法虽然不涉及迭代计算，但是重构过程中需要进行大量的矩阵乘法和卷积运算，而目前CPU的架构决定了无法快速地进行矩阵乘法和卷积运算，因此在CPU环境下，本文方法和ReconNet算法运算耗时较长。但另一方面，本文方法和ReconNet算法在GPU平台上运行最快，运算耗时比TVAL3重构算法小了一个数量级。这是因为GPU能高速计算矩阵乘法和卷积，更适合基于深度学习的本文方法和ReconNet算法。进一步考察表3发现，本文方法在GPU实验环境下能够达到0.01 s/帧的处理速度，完全可以满足矿井图像数据的实时采集和处理需要，而且在同样测试环境下，本文方法至少比ReconNet算法快0.01 s，说明本文方法在图像重构方面具有更好的实时性。

表3 不同算法的图像重构平均用时

Table 3 Average time consumed in seconds for different algorithms s

算法r=0.25r=0.20r=0.15r=0.10r=0.04r=0.01D-AMP(CPU)2.42706.74804.77806.03104.15903.7060ReconNet(GPU)0.02190.01950.02020.02340.01890.0197ReconNet(CPU)1.43111.46881.48301.43171.46331.2727TVAL3(CPU)0.47800.48200.47800.41030.44600.4588本文方法(GPU)0.00890.01000.00900.00840.00940.0049本文方法(CPU)1.53511.57771.48181.39171.34610.9639

此外，为了进一步考察本文方法在井下环境的抗噪性能，对含噪图像进行了压缩重构的仿真实验。为了模拟井下雾尘环境噪声影响，本文对场景(a)分别加入均值为0，标准差分别为5,10,15,20,25和30的高斯噪声，并对加噪图像在压缩比为0.25与0.04的情况下进行压缩与重构，实验结果如图5所示。由图5可知，在噪声干扰的条件下，对于绝大多数情况，本文方法的重构质量优于其他方法，而且噪声标准差越大、压缩比r越小，本文方法的优势越明显。另外，本文方法的重构PSNR,SSIM随噪声变化的幅度较小，在压缩比r为0.04时，本文方法的PSNR波动小于0.5 dB，SSIM波动小于0.05，说明本文方法具有较强的噪声鲁棒性。

综合来看，与其他方法相比，本文方法在压缩比较小情况下能取得更好的重构效果，对噪声环境下的图像重构具有鲁棒性，且本文方法的重构时间很短。

图5 有噪声条件下不同算法对场景(a)在压缩比r为0.25,0.04的情况下的重构结果比较

Fig.5 Comparison of the reconstruction of scene (a)of different algorithms in the presence of noise,when the compression ratio is set to 0.25 and 0.04

4 结论

(1)为解决矿井监控图像的压缩与重构问题，本文提出了一种基于残差网络的卷积神经网络结构，并提出基于DW-SSIM的损失函数与均方误差损失函数训练网络参数方法。

(2)实验表明，本文方法在压缩比较小时,PSNR和SSIM指标均优于其他的传统压缩感知方法，且本文方法的重构时间较短，能有效提高矿井监控图像的清晰度，有助于改善矿井监控系统的实时性能。

(3)在相同压缩比及噪声条件下，本文方法的重构PSNR和SSIM优于其他算法，且重构PSNR，SSIM随噪声变化的幅度较小，本文方法对矿井环境下的图像重构具有较强的抗噪性和鲁棒性。

参考文献(References):

[1] 袁亮.煤炭精准开采科学构想[J].煤炭学报,2017,42(1):1-7.

YUAN Liang.Scientific conception of precision coal mining[J].Journal of China Coal Society,2017,42(1):1-7.

[2] 孙继平.煤矿安全生产监控与通信技术[J].煤炭学报,2010,35(11):1925-1929.

SUN Jiping.Technologies of monitoring and communication in the coal mine[J].Journal of China Coal Society,2010,35(11):1925-1929.

[3] HARGRAVE Chad O，JAMES.Infrastructure-based localisation of automated coal mining equipment[J].International Journal of Coal Science & Technology,2017,4(3):252-261.

[4] 张帆,闫秀秀,李亚杰.基于稀疏度自适应的矿井智能监控图像重构方法[J].煤炭学报,2017,42(5):1346-1354.

ZHANG Fan,YAN Xiuxiu,LI Yajie.A novel image reconstruction method of mine intelligent surveillance based on adaptive sparse representation[J].Journal of China Coal Society,2017,42(5):1346-1354.

[5] MOUSAVI A,BARANIUK R G.Learning to invert:Signal recovery via Deep Convolutional Networks[A].Proceedings of the 42nd IEEE International Conference on Acoustics,Speech and Signal Processing[C].New Orleans:2017.

[6] REDMON Joseph,DIVVALA Santosh Kumar,GIRSHICK Ross B,et al.You only look once:Unified,real-time object detection[J].computer vision and pattern recognition,2016:779-788.

[7] GIRSHICK Ross,DONAHUE Jeff,DARRELL Trevor,et al.Rich feature hierarchies for accurate object detection and semantic segmentation[A].Proceedings of the 26th IEEE Computer Society Conference on Computer Vision and Pattern Recognition[C].Portland:2013.

[8] KULKARNI K，LOHIT S,TURAGA P,et al.ReconNet:Non-iterative reconstruction of images from compressively sensed measurements[A].Proceedings of the 29th IEEE Computer Society Conference on Computer Vision and Pattern Recognition[C].Las Vegas:2016.

[9] CAND width=8,height=14,dpi=110 S Emmanuel,ROMBERG Justin,TAO Terence.Robust uncertainty principles:Exact signal reconstruction from highly incomplete frequency information[J].IEEE Transactions on Information Theory,2006,52(2):489-509.

[10] CAND width=8,height=14,dpi=110 S Emmanuel,ROMBERG Justin,TAO Terence.Stable signal recovery from incomplete and inaccurate measurements[J].Communications on Pure and Applied Mathematics,2006,59(8):1207-1223.

[11] DONOHO D L.Compressed sensing[J].IEEE Transactions on Information Theory,2006,52(4):1289-1306.

[12] DONOHO D L,ELAD M,TEMLYAKOV V N.Stable recovery of sparse overcomplete representations in the presence of noise[J].IEEE Transactions on Information Theory,2006,52(1):6-18.

[13] TROPP J A,GILBERT AC.Signal recovery from random measurements via orthogonal matching pursuit[J].IEEE Transactions on Information Theory,2007,53(12):4655-4666.

[14] YANG Zhenzhen,YANG Zhen,SUN Linhui.A survey on orthogonal matching pursuit type algorithms for signal compression and reconstruction[J].Journal of Signal Processing,2013,29(4):486-496.

[15] DONOHO D L.Compressed sensing[J].IEEE Transactions on Information Theory,2006,52(4):1289-1306.

[16] GOH A T C.Back-propagation neural networks for modeling complex systems[J].Artificial Intelligence in Engineering,1995,9(3):143-151.

[17] KINGMA Diederik P,BA Jimmy.Adam:A method for stochastic optimization[A].Proceedings of the 3rd International Conference on Learning Representations[C].San Diego:2015.

[18] HE Kaiming,ZHANG Xiangyu,REN Shaoqing,et al.Deep residual learning for image recognition[A].Proceedings of the 29th IEEE Computer Society Conference on Computer Vision and Pattern Recognition[C].Las Vegas:2016.

[19] ZENG K,YU J,WANG R,et al.Coupled deep autoencoder for single image super-resolution[J].IEEE Transactions on Cybernetics,2017,47(1):27-37.

[20] IOFFE Sergey,SZEGEDY Christian.Batch normalization:Accelerating deep network training by reducing internal covariate shift[A].Proceedings of the 32nd International Conference on International Conference on Machine Learning[C].Lille:2015.

[21] MAAS Andrew L,HANNUN Awni Y,NG Andrew Y.Rectifier nonlinearities improve neural network acoustic models[A].Proceedings of the 30th ICML Workshop on Deep Learning for Audio,Speech and Language Processing[C].Atlanta Marriott Marquis:2013.

[22] WANG Z,BOVIK A C.Mean squared error:Love it or leave it? A new look at Signal Fidelity Measures[J].IEEE Signal Processing Magazine,2009,26(1):98-117.

[23] WANG Zhou,BOVIK Alan C,SHEIKH Hamid R,et al.Image quality assessment:From error visibility to structural similarity[J].IEEE transactions on image processing,2004,13(4):600-612.

[24] WANG Zhou,BOVIK Alan C.Modern image quality assessment[J].Synthesis Lectures on Image,Video,and Multimedia Processing,2006,2(1):1-156.

[25] SAMPAT M P,WANG Z,GUPTA S,et al.Complex wavelet structural similarity:A new image similarity index[J].IEEE Transactions on Image Processing,2009,18(11):2385-2401.

[26] METZLER C A,MALEKI A,BARANIUK R G.From denoising to compressed sensing[J].IEEE Transactions on Information Theory,2016,62(9):5117-5144.

[27] LI Chengbo,YIN Wotao.An efficient augmented Lagrangian method with applications to total variation minimization[J].Computational Optimization and Applications,2013,56(3):507-530.

A mine image reconstruction method based on residual neural network

ZHANG Fan1,2,XU Zhichao1

(1.School of Electrical and Information Engineering,China University of Mining and Technology (Beijing),Beijing 100083,China; 2.Institute of Intelligent Mining and Robotics,China University of Mining and Technology (Beijing),Beijing 100083, China)

Abstract:In order to address the problems of the disturbance from environmental noise on visual operations in underground mines,and to satisfy the demands of intelligent mining that call for imaging clarity of the operating objects,it is of significance to investigate into the theories and the methods of the reconstruction of mine video images based on computer vision.This is of vital importance of the advancement in intelligent mine monitoring and safe mining technologies.Conventional video monitoring system adopts classical Nyquist sampling theorem to address the points of video acquisition,compression,and encoding and decoding.However,the conventional compression methods would waste valuable acquisition resources and increase the system overheads when dealing with data as large as videos.It is more difficult for conventional methods to address the problems of fidelity loss,edge blurring,and transmission latency in regards of the reconstruction of the image,which downgrades the performance of the mine surveillance system and the quality of video transmission.In response to these challenges,an image compression and reconstruction method based on residual network is proposed.The proposed method establishes a novel network featuring skipping connections.Down-sampling matrix is applied to compress the original mine image.Then multiple up-sampling layers are inserted to scale up the feature maps to the size of the original image.The feature maps are learnt by residual network blocks.Finally the feature maps are aggregated to the reconstructed image by the optimized network.In addition,a new loss function called discrete wavelet structural similarity (DW-SSIM)loss is proposed.The DW-SSIM loss and mean square error loss are added up together as the total loss when training the network.The experiments are carried out to validate the effectiveness of the proposed method.The proposed method is compared to the algorithms of the compressed sensing based D-AMP,TVAL3,and deep learning based ReconNet.The experiments show that the proposed method surpasses other algorithms at low compression ratios in regards of PSNR (Peak Signal-to-Noise Ratio)and SSIM (Structural Similarity).As for reconstruction at the present of noise,there are less fluctuations in PSNR and SSIM for the proposed method as the noise level varies.It is concluded that the proposed method features a strong noise robustness and is able to significantly improve the fidelity and clarity of the reconstructed images.Compared to other algorithms,the proposed method consumes the least time,which can improve the real time performance of the mine video surveillance systems.

Key words:mine intelligent surveillance;residual neural network;DW-SSIM;compressed sensing;image restoration

中图分类号:TP391.41;TD76

文献标志码:A

文章编号:0253-9993(2019)11-3614-11

收稿日期:2019-05-22

修回日期:2019-09-09 责任编辑:郭晓炜

基金项目:国家重点研发计划资助项目(2016YFC0801800)

作者简介:张帆(1972—)，男，甘肃白银人，副教授，博士。Tel:010-62331953，E-mail:zf@cumtb.edu.cn

移动阅读

张帆，徐志超.基于残差神经网络的矿井图像重构方法[J].煤炭学报,2019,44(11):3614-3624.doi:10.13225/j.cnki.jccs.2019.0691

ZHANG Fan,XU Zhichao.A mine image reconstruction method based on residual neural network[J].Journal of China Coal Society,2019,44(11):3614-3624.doi:10.13225/j.cnki.jccs.2019.0691