水害为煤矿的重特大灾害之一[1-2],国内矿井水灾识别工作针对水灾发生的不同时期主要分为灾前预警和灾后报警2个阶段:灾前预警常用方法有水源识别法、电阻率法、微震法、应力法、水文钻孔法[3]。水源识别[4-5]通过分析等离子物质的浓度进行水灾识别,但是识别周期较长,识别效率偏低。电阻率法[6]通过电阻率变化来监测水灾,但是需要布置电阻率监测线,且布线对监测效果影响极大。应力法[7-8]和微震法[9-10]通过监测矿井突水发生前的应力和微震变化监测突水发生,但是应力和微震易于受到采矿过程中设备震动和冲击地压影响,可靠性较差。水文钻孔法[11]主要通过监测含水层水源分析水文地质特征,但是施工成本较高,钻具遇到不同地层时受力复杂,冲击力较大,极易引发孔内事故;由于我国煤田地质复杂,各个煤田水灾形成机理不同,限制了水灾预警方法的推广使用,水灾报警方法是对预警方法的有效补充,可以在水灾发生后有效减少损失。水灾发生并不像煤与瓦斯爆炸或冲击地压一样具有突然性,及时发现水灾,安全撤离能有效降低生命和财产损失。灾后报警为水灾发生后对水位和涌水量进行监测报警,监测涌水量的关键为对水位的监测,水位监测常用的传感器类型有浮球式、激光式、光电式、电极式、电容式、电缆式、超声波式等。浮球式传感器需要机械装置利用浮力测量水位,但随着时间推移,机械装置容易发生疲劳、损坏、变形等影响测量精度。激光式传感器通过测量水面至观察点距离判断水位,但是水质对水位测量影响明显,不同水质的测量效果偏差较大。其他传感器将非电水位参数信息转换为电压、电容等电信号,经过放大电路、模数转换后,将模拟信号转化为数字信号进行处理,非电信号在矿井恶劣水质采集误差较大,模数转换时引入的误差和干扰不可避免,使得传感器存在可靠性不高、测量精度低等问题。
随着计算机技术的发展,图像识别技术越来越受到关注,图像识别水灾具有诸多优点:① 非接触,减少因为水流运动、水质、泥沙对传感器设备的破坏;② 可视化,可以在井上实时查看水位情况,及时排除误报影响;③ 复用性高,不用单独布置设备,可以采用井下已有摄像头进行监测;④ 可靠性高,摄像设备安装在防爆壳体内,不易受到矿井潮湿环境影响。为此,笔者提出一种基于残差神经网络的矿井水位标尺刻度识别方法。
残差连接的思想起源于中心化,将输入数据减去均值进行中心化转化,能加速系统的学习速度。文献[12]通过跳层连接(shortcut connection)分别将输入层,隐藏层单元激活值,梯度误差和权重更新中心化,大大提升了梯度下降算法的训练速度。文献[13]研究了在各种不同配置下,shortcut connections能提高随机梯度下降算法的学习能力和模型的泛化能力,并在图像分类和重构任务上进行了实验。文献[14]首次明确的提出了残差网络结构(Residual Neural Network),解决了深度神经网络中产生的退化问题。文献[15-16]实验验证了深层网络训练完成后随机去除某些层,网络性能不会有太多的退化。文献[17]深入的阐明了shortcut connections对训练深度网络的影响,模型的不可识别所造成的奇异性是训练深度网络的最大瓶颈,进而降低学习效率,shortcut connections能有效的消除这些奇异性,从而加快学习效率。但是这些算法对于神经网络的网络深度对整体识别效果影响却没有研究,识别率不能随着网络的加深而无限制提高,在特定数量的数据集上,具有最优的网络层数,过多的网络层数会导致参数训练不充分,进而导致网络性能退化,网络层数过少会出现过拟合现象,识别率降低。为此,笔者研究了不同深度算法对井下水位标尺刻度目标的识别率的影响。
图像的目标检测效果与深度学习网络的深度密切相关,但并不是网络层次越深,识别率越高。对浅层网络的优化无法明显提升识别效果情况下,越来越多的学者开始研究深层次网络,但是单纯堆叠加深网络时,梯度消失(在神经网络中,当前面隐藏层的学习速率低于后面隐藏层的学习速率,即随着隐藏层数目的增加,分类准确率反而下降的现象叫做梯度消失)现象越来越明显,很容易影响识别效果,残差神经网络能很好的解决梯度消失的问题。
如图1所示两层网络结构,对于第1层网络,假设a[l]为第1层神经网络输入,a[l+1]为经过第1层神经网络之后的输出,w[l+1]为第1层神经网络的权重,b[l+1]为第1层神经网络的偏置,则有
z[l+1]=w[l+1]a[l]+b[l+1]
(1)
a[l+1]=g(z[l+1])
(2)
式中,z[l+1]为输入经过第l+1层后没有进入激活函数之前的输出值。
图1 残差网络结构示意
Fig.1 Structural indication of residual network
对于第2层则有
z[l+2]=w[l+2]a[l+1]+b[l+2]
(3)
a[l+2]=g(z[l+2])
(4)
按照如图1所示的short cut短连接,则有
a[l+2]=g(z[l+2]+a[l])
(5)
a[l+2]=g(w[l+2]a[l+1]+b[l+2]+a[l])
(6)
假设在大型网络的输出激活值
g(a[l])=a[l]
(7)
如果w[l+2]趋近于0,b[l+2]趋近于0,则
a[l+2]=g(a[l])=a[l]
(8)
如图1所示,由于shortcut存在,输入可以直接传递到后面的层,信息的完整性得以增强和保护,使得深层网络可以学习这些特征,避免了传统的卷积层在传递信息时,随着网络层次的加深,信息丢失或是损耗。
以R-CNN[18]为代表的候选区域(region proposal)方法,将检测过程分为2步,首先找到候选框,区分图像中的目标与背景,然后将候选框进行分类识别。Fast R-CNN[19]对损失函数进行了改进,使用了多任务损失函数,CNN网络训练中直接添加了边框回归,虽然识别效果提升,但是训练和测试速度仍然很慢,Faster R-CNN[20]改进了建议框的产生方式,采用卷积网络使得建议框数量大幅减少,检测效率大幅提升,但是和以YOLO[21-23]为代表的端到端的回归分析相比,在速度表现方面差强人意。虽然YOLO的检测速率较高,但是对小目标的检测精确度很低。据此,笔者设计了1种241层残差神经网络,用以检测煤矿水位标尺图像,网络结构如图2所示,网络由31个残差块构成,分别在第1,2,12,12,4个残差块进行步长为2的下采样,并分别加入1个padding层,1个卷积层,1个BN(Batch Normalliziton)层,1个Relu层,每个残差块由2个卷积层,2个BN层,2个Relu层,1个Residual层共7层组成,残差神经网络可以保证随着网络深度的加深,梯度不会消失。由于本文探测目标尺度较小,所以需要在较小的尺度下训练和识别,笔者分别在120层、208层引出张量和第240层进行融合,第120层卷积层张量的网格尺度为52×52,第208层卷积层的张量的网格尺度为26×26,第241层张量的网格尺度为13×13,网格划分越小对小物体的检测能力越好。
图2 网络结构
Fig.2 Network structure
预测特征图如图3所示,每1个filter负责预测在特定尺度下目标的信息,共有1 792(256+512+1 024)个filter组成的特征图表示了在待检测特征图中待检测的目标的数量,目标的分类,目标的中心参数,目标的大小参数等关键信息。
图4为刻度目标识别的原理:刻度识别的任务分为3个层级,首先需要在待检测的图像中确定刻度目标的位置参数,其次需要确定刻度目标的形状参数,然后确定刻度目标的所属类别。将待测图像按照网格划分,通过卷积层不断的提取参数。图4中,tx,ty为刻度目标的中心位置参数;tw,th为形状参数;c1为左刻度的置信度;c2为右刻度的置信度;p0为是探测物体前景而不是背景的概率。
图3 特征向量
Fig.3 Feature vector
图4 检测原理
Fig.4 Detection principle
模型预测目标和真实值之间的关系可以用损失函数表述,本文采如式(9)所示的损失函数Loss。
(9)
式中,xi,yi为预测刻度目标中心所在的坐标;为实际刻度目标中心所在的坐标;wi,hi为预测刻度目标的宽和高;为实际刻度目标的宽和高;ci 为预测刻度目标的类别;为实际刻度目标的类别;pi(c)为预测刻度目标的置信度; 为实际刻度目标的置信度;wlocal为当前分块区域中是否存在物体,如果存在则为1,不存在则为0;s2为图像分块为s×s个网格;B为每个分块网格产生B个候选框;为第i个分块区域中第j个预测框目标物体中心存在的置信度;为第i个分块区域中第j个预测框没有目标物体中心存在的置信度。
笔者采用python编程,在Intel i7、十六核1.8 GHz、内存32 G、显卡GTX1080TI、64位ubuntu16.04操作系统上进行了模型的训练与调整,训练数据集图像来自神华宁夏煤业集团有限责任公司双马煤矿43煤辅用巷道,由1 000张960×544像素jpg格式图片构成,为了关注时间和空间的关联性,测试数据集由视频帧按照时间顺序逐帧分割为连续的100张图像组成。
如图5所示,模型的损失值从第3次开始迅速变小,到第100次左右开始走向平稳,在训练模型中,模型的优劣与迭代次数密切相关,但并不是迭代次数越多模型越好,训练次数越多时,容易导致过拟合的出现,需要对训练出来的模型进行评估调整,混淆矩阵(con fusion matrix)是判断分类器好坏的重要指标,见表1。
左侧刻度的识别率Preleft可以记为
(10)
式中,Aleft为测试集左刻度检测正确的个数(模型计算出来的IOU与阈值比较,如果大于阈值记为正确检测的个数);Bleft为测试集实际左刻度的个数,同样的右侧刻度识别率可以计为
图5 损失值Loss随迭代次数的变化曲线
Fig.5 Curves of Loss with the number of iterations
表1 混淆矩阵
Table 1 Confusion matrix
预测数据/实际数据实际为正实际为负预测为正TruePositive(TP)FalsePositive(FP)预测为负FalseNegative(FN)TrueNegative(TN)
(11)
式中,N为个数。
则平均识别率mAP:
(12)
召回率Recall表示样本中的正例被预测正确的比例:
Recall=TP/(TP+FN)
(13)
f1[24]值如下:
f1=2×mAP×Recall/(mAP+Recall)
(14)
图像识别效果如图6所示。
图6 识别效果
Fig.6 Recognition performance
不同置信度阈值下识别率、召回率、f1值如图7所示,图7(a),(b)为左、右刻度在不同置信度阈值下识别率、召回率、f1值,图7(c)为识别率、召回率、f1值的平均值。在置信度0.1,0.2附近整体的识别率都较低,随着阈值增长,左刻度的召回率逐渐升高,右刻度先升高然后降低,降幅较大,所以平均召回率趋势下降较大,左刻度的识别率在0.4阈值处较大,右刻度的识别率随着阈值的增大逐渐增大,f1值在3幅图中都是先增大后减小,按照识别率>召回率>f1值顺序可以看出在阈值0.4附近,识别率最高为97%,召回率最高为96%,f1值最高为97%。预测张量含有所有边界框的信息,低于阈值的边界框的相应向量值被置位为0,所以随着置信度的提高,一些比较低可能性的目标被筛选出去,所以TP和FP的值会逐渐变小,根据式(10),以左侧为例:如果TP为固定值,随着FP变小,Preleft逐渐变大;如果FP为固定值,随着TP的变小,Preleft会逐渐小。根据本文实验,在参数0.4的时候识别率最高。
图7 不同置信度阈值下的识别率、召回率、f1值
Fig.7 Recognition rate,recall rate and f1 value under different confidence threshold
为了验证本文网络结构的性能,笔者分别对其他几种深度网络进行了实验,分别为RN59(59层残差网络),RN87(87层残差网络),RN129(129层残差网络),RN297(297层残差网络)。图8(b)为第2~52轮训练损失值,图8(c)为第950~1 000轮损失值。随着网络层数的加深,训练损失值减少的速度放缓,其中RN59,损失值下降速度最快,RN297为最慢。在1 000轮左右损失值平稳性如图8(c)所示,RN297的振幅较大,最大振幅达到21,本文算法和其他2种网络深度算法表现较好,损失值稳定在17左右。
图8 不同网络深度的Loss损失值
Fig.8 Loss values for different network depths
网络深度是指神经网络的层数,神经网络的层数越多,深度越深。图9表示不同网络深度在不同的置信度阈值下的识别率、召回率、f1值。图9(a),9(b),9(c)表示左刻度的识别率、召回率、f1值,本文算法在置信度0.4时最大分别可以达到94%,99%,97%;图9(d),9(e),9(f)表示右刻度的识别率、召回率、f1值,本文算法在置信度0.4时最大分别可以达到99%,92%,97%。图9(g),9(h),9(i)为平均识别率、平均召回率、平均f1值,本文算法在置信度0.4时最大分别可以达到97%,96%,97%。可以看出,识别率并不能随着网络的加深而无限制提高,深层网络会带来梯度不稳定,弥散,进而导致网络退化,虽然可以通过一定的方法进行优化,但却没办法从根本上消除。网络加深反而会导致性能开始下降。加深的模型导致某些浅层的学习能力下降,限制了深层网络的学习,识别率反而下降。
3.3.1 PR曲线分析
图10表示不同网络深度的PR曲线,图10(a)表示左刻度的PR曲线,图10(b)表示左刻度召回率在0.1~0.9放大的PR曲线。可以看出本文采用的网络深度算法的PR曲线在所有曲线的最上方,性能优于其他网络深度;图10(c)表示右刻度的PR曲线,图10(d)表示右刻度召回率在0.1~0.9放大的PR曲线,本文采用的网络深度的算法虽然在召回率0.7~0.9时的识别率低于RN297和RN59,但是在其他召回率期间性能表现较好。
图9 不同网络深度的识别率
Fig.9 Recognition rate of different network depths
图10 不同网络深度的PR曲线分析
Fig.10 PR curves analysis of different network depths
3.3.2 ROC曲线分析
图11为本文采用的网络深度的算法和其他几种网络深度的ROC(受试者工作特征曲线,Receiver Operating Characteristic Curve,简称ROC曲线)曲线对比,横轴为FPR(False Positive Rate),纵轴为TPR(True Positive Rate),越靠近左上角的ROC曲线性能越好,此时,假阳性和假阴性的总数最少。可以看出本文网络深度算法的ROC曲线的性能均优于其他曲线的性能,表现最好,其次为RN87,RN129表现最差。
图11 不同网络深度的ROC分析
Fig.11 ROC Analysis of different network depths
图12 不同算法的性能比较
Fig.12 Performance comparison of different algorithms
图13 耗时对比
Fig.13 Time-consuming comparison
为了分析算法的性能,笔者选取了其他几种常见的算法进行比较,参与比较的算法有YOLOv3-k-101[25],YOLOv3-Big-Object[26],small-OD[27],CMNet[28],如图12所示,本文算法在置信度阈值0.4时的识别率最高为97%,召回率为96%,f1值为97%,均优于其他算法。
图13为本文算法与其他算法的时间比较,可以看出整个的训练时间要比测试时间高出1个数量级,这是因为在训练阶段需要计算Loss值,并利用反向传播更新卷积层的权值参数,所以耗费时间较大。而网络结构的增大会相应的增大训练时间,但是相对于性能的提升,时间的开销可以容忍。图13(a),(b)分别为本文算法相对于其他算法的训练时间和测试时间比较,可以看到本文算法在训练时间开销上仅次于CMNet,测试时间比较长大约为47 ms。
(1)建立了一种基于残差神经网络的矿井水位标尺刻度识别方法,采集工作面和巷道水位标尺图像,将图像刻度中心位置参数,形状大小参数,刻度分类提取为特征向量,通过残差神经网络进行训练,当网络训练稳定后,将待检测图像进行相同的操作得到特征向量,将特征向量解析为图像刻度目标的关键信息,实现水位标尺的刻度检测。
(2)针对不同的网络深度进行了实验,比较了不同深度下训练阶段的损失值下降速率和稳定性、平均识别率、f1值、PR曲线、ROC曲线、训练耗时、测试耗时。
(3)实验验证了不同的置信度阈值对识别率的影响,低阈值情况下,张量预测有效边界框变多,同时判断为负样本概率增加,导致识别率较低。随着阈值增高,处理张量有效边界框变少,整体预测样本数量变少,判断为负样本的概率降低,识别率增加。置信度到达一定阈值,负样本数量开始对识别率影响加大,导致识别率降低。本文实验在置信度0.4阈值处具有最高识别率97%。
(4)通过与YOLOv3-k-101,YOLOv3-Big-Object,small-OD,CMNet算法进行比较,本文在时间开销略多情况下,性能明显提升。
[1] LI Wenping,WANG Qiqing,LIU Shiliang,et al.Study on the creep permeability of mining-cracked N2 laterite as the key aquifuge for preserving water resources in Northwestern China[J].International Journal of Coal Science & Technology,2018,5(3):315-327.
[2] FAN Limin,MA Xiongde.A review on investigation of waterpreserved coal mining in western China[J].International Journal of Coal Science & Technology,2018,5(4):411-416.
[3] 孙继平,靳春海.矿井水灾感知与水源判定方法研究[J].工矿自动化,2019,45(4):1-5.
SUN Jiping,JIN Chunhai.Research on methods of mine floo perception and water source determination[J].Industry and Mine Automation,2019,45(4):1-5.
[4] 黄平华,陈建生.基于多元统计分析的矿井突水水源Fisher识别及混合模型[J].煤炭学报,2011,36(S1):131-136.
HUANG Pinghua,CHEN Jiansheng.Fisher indentify and mixing model based on multivariate statistical analysis of mine water in-rush sources[J].Journal of China Coal Society,2011,36(S1):131-136.
[5] 王亚,周孟然,闫鹏程,等.基于极限学习机的矿井突水水源快速识别模型[J].煤炭学报,2017,42(9):2427-2432.
WANG Ya,ZHOU Mengran,YAN Pengcheng,et al.A rapid identification model of mine water inrush based on extreme learningmachine[J].Journal of China Coal Society,2017,42(9):2427-2432.
[6] 刘斌,李术才,聂利超,等.矿井突水灾变过程电阻率约束反演成像实时监测模拟研究[J].煤炭学报,2012,37(10):1722-1731.
LIU Bin,LI Shucai,NIE Lichao,et al.Research on simulationof mine water inrush real-time monitoring of using electrical resistivity constrained inversion imaging method[J].Journal of China Coal Society,2012,37(10):1722-1731.
[7] 郭惟嘉,张士川,孙文斌,等.深部开采底板突水灾变模式及试验应用[J].煤炭学报,2018,43(1):219-227.
GUO Weijia,ZHANG Shichuan,SUN Wenbin,et al.Experimental and analysis research on water inrush catastrophe mode from coal seam floor deep mining[J].Journal of China Coal Society,2018,43(1):219-227.
[8] 李永恩,马念杰,马骥,等.深部承压水上底抽巷围岩破坏特征及合理位置[J].煤炭学报,2018,43(9):2491-2500.
LI Yongen,MA Nianjie,MA Ji,et al.Surrounding rock’s failurecharacteristic and rational location of floor gas drainage roadway above deep confined water[J].Journal of China Coal Society,2018,43(9):2491-2500.
[9] 原富珍,马克,庄端阳,等.基于微震监测的董家河煤矿底板突水通道孕育机制[J].煤炭学报,2019,44(6):1846-1856.
YUAN Fuzhen,MA Ke,ZHUANG Duanyang,et al.Preparation mechanism of water inrush channels in bottom floor of Dongjiahe Coal Mine based on microseismic monitoring[J].Journal of China Coal Society,2019,44(6):1846-1856.
[10] 谢兴楠,叶根喜.测井“静态”探测与微震“动态”监测技术在矿井突水综合预警中的应用[J].中国矿业,2012,21(1):110-114.
XIE Xingnan,YE Genxi.Application of integrated predicaiton of water inrussing based on static geopyhysical logging probe and dynamic microseismic monitoring[J].China Mining Magzine,2012,21(1):110-114.
[11] 秦成.基于钻孔水文监测信息的顶板水害分析[J].矿业安全与环保,2017,44(4):80-84,89.
QIN Cheng.Analysis of roof water inrush hazard bas-ed on borehole hydrological monitoring information[J].Mining Safety & Environmental Protection,2017,44(4):80-84,89.
[12] SCHRAUDOLPH N.Accelerated gradient descent by factor-centering decomposition[J].Technical Report/IDSIA,1998,36(1):1-8.
[13] RAIKO T,VALPOLA H,LECUN Y.Deep learning made easier by linear transformations in perceptrons[A].Artificial Iintelligence and Statistics[C].CADIZ:2012:924-932.
[14] HE Kaiming,ZHANG Xiangyu,REN Shaoqing,et al.Deep residual learning for image recognition[J].Computer Vision and Pattern Recognition,2015,10:1-12.
[15] VEIT A,WILBER M J,BELONGIE S.Residual networks behave like ensembles of relatively shallow networks[A].Advances in Neural Information Processing Systems[C].Barcelona:2016:550-558.
[16] HUANG G,SUN Y,LIU Z,et al.Deep networks with stochastic depth[A].European Conference on Computer Vision[C].Amster dam,Holland:2016:646-661.
[17] ORHAN A E,PITKOW X.Skip connections eliminate singularities[A].International Conference on Learning Representations[C].Vancouver:2018:1-22.
[18] GIRSHICK R,DONAHUE J,DARRELLAND T,et al.Rich feature hierarchies for object detection and semantic segmentation[A].IEEE Conference on Computer Vision and Pattern Recognition[C].Columbus:2014:1-8.
[19] GIRSHICK R.Fast R-CNN[A].IEEE International Conference on Computer Vsion[C].Santiago:2015:1440-1448.
[20] REN Shaoqing,HE Kaiming,ROSS G,et al.Faster r-cnn:Towards real-Time object detection with region proposal networks[J].IEEE Transactions on Pattern Analysis And Machine Intelligence,2015,39(6):1137-1149.
[21] REDMON J,DIVVALA S,GIRSHICK R.You only look once:Unified,real-time object detection[A].IEEE Conference on Computer Vision and Pattern Recognition (CVPR)[C].Las Vegas:2016,6:27-30.
[22] REDMON J,FARHADI A.YOLO9000:better,faster,stronger.In CVPR[A].IEEE Conference on Computer Vision and Pattern Recognition[C].Hawaii:2017:6517-6525.
[23] REDMON J,FARHADI A.Yolov3:An incremental improvement[A].IEEE Conference on Computer Vision and Patern Reconition[C].Salt Lake City:2018:1-6.
[24] HRIPCSAK G,ROTHSCHILD A S.Agreement,the f-measure,and reliability in information retrieval[J].Journal of the American Medical Informatics Association,2005,12(3):296-298.
[25] 崔文靓,王玉静,康守强,等.基于改进YOLOv3算法的公路车道线检测方法[J].自动化学报,2019,7(9):1-9.
CUI WenLiang,WANG Yujing,KANG Shouqiang,et al.Road lane line detection method based on improved YOLOv3 algorithm[J].Acta Automatica Sinica,2019,7(9):1-9.
[26] 陈文帅,任志刚,吴宗泽,等.基于深度学习的极性电子元器件目标检测与方向识别方法[J].自动化学报,2019-11-23,1-10.https://doi.org/10.16383/j.aas.c190037.
CHEN Wenshuai,REN Zhigang,WU Zongze,et al.Detecting object and oirection for polar electronic components via deep learning[J].Acta Automatica Sinica,2019-11-23,1-10.https://doi.org/10.16383/j.aas.c190037.
[27] 鞠默然,罗海波,王仲博,等.一种改进的YOLOv3及其在小目标检测中的应用[J].光学学报,2019,39(7):1-13.
JU Moran,LUO Haibo,WANG Zhongbo,et al.An improved YOLOv3 and its application in small target detection[J].Acta Optica Sinica,2019,39(7):1-13.
[28] ZHANG Fukai,YANG Feng,LI Ce,et al.CMET:A conect-and-merge convolutional neural network for fast vehicle detection in urban traffic surveillance[J].IEEE Access,2019,7:72660-72671.