矿山生产作业场景视频结构化分析关键技术

董锴文1,2，孙彦景1,2，陈岩1,2，云霄1,2，程小舟3，王博文1,2，周玉1,2，王斌4

(1.徐州市智能安全与应急协同工程研究中心，江苏徐州 221008；2.中国矿业大学信息与控制工程学院，江苏徐州 221008；3.中钢集团马鞍山矿山研究总院股份有限公司，安徽马鞍山 243000；4.西安科技大学通信与信息工程学院，陕西西安 710054)

摘要:随着5G通信、边缘计算、大数据和人工智能等技术在煤炭工业生产场景的应用，各类视频设备和功能系统急剧增多。为提高矿山安全生产的协同管控能力和智能决策水平，解决矿山各业务系统智能化程度低、深度信息感知能力差以及决策能力弱的问题，需要对具体生产场景下的视频结构化分析相关技术进行深入研究，构建跨场景的态势感知与协作、全流程的生产状态监控的智慧矿山生产视频结构化分析系统平台。建议从人、机、料、法、环5个维度融合分析矿山视频数据，通过场景认知和生产规则建模以应对复杂作业场景下业务场景识别的需求，对矿山生产业务及规则进行结构化特征建模，从时间、空间以及语义等方面对目标特征进行组合分析与分级索引，在云边协同技术架构下，让感知数据上行、规则模型下行，研发能够快速进行全系列结构化数据传递、全场景语义信息融合以及全流程生产风险管控的云边协同视频结构化分析平台，形成更加符合矿山工业形态的非结构化数据治理模式。在深入分析矿山安全生产需求和视频结构化分析技术特性的基础上，提出研究矿山作业场景视频结构化分析机制、矿山作业场景认知与规则建模技术、人员安全行为分析督导技术、设备状态视频监控联合分析技术、视频分析应急协同与联动技术等关键技术，对建立集人机督导和生产监控于一体的智慧矿山生产视频结构化分析系统，促进矿山安全生产系统由局部信息化、自动化向多系统协同智能化发展具有重要意义。

关键词:视频结构化；跨场景分析；边缘计算；云边协同；综合管控；智慧矿山

基金项目:中国矿业大学“工业物联网与应急协同”创新团队资助项目(2020ZY002)；国家自然科学基金面上资助项目(62071472)；国家自然科学基金青年基金资助项目(61902404)

作者简介:董锴文(1996—)，男，山西晋城人，博士研究生。E-mail:dongkaiwen@cumt.edu.cn

通讯作者：孙彦景(1977—)，男，山东滕州人，教授，博士生导师。Tel：0516-83590819，E-mail:yanjingsun_cn@163.com

引用格式:董锴文，孙彦景，陈岩,等. 矿山生产作业场景视频结构化分析关键技术[J]. 煤炭学报,2021,46(11):3724-3735.

DONG Kaiwen，SUN Yanjing，CHEN Yan,et al. Key technology of video structured analysis in mine production operation scenario[J]. Journal of China Coal Society,2021,46(11):3724-3735.

Key technology of video structured analysis in mine production operation scenario

DONG Kaiwen1,2，SUN Yanjing1,2，CHEN Yan1,2，YUN Xiao1,2，CHENG Xiaozhou3，WANG Bowen1,2， ZHOU Yu1,2，WANG Bin4

(1.Xuzhou Engineering Research Center of Intelligent Industry Safety and Emergency Collaboration,Xuzhou 221008,China; 2.School of Information and Control Engineering,China University of Mining and Technology,Xuzhou 221008,China; 3.Sinostell Maanshan General Institute of Mining Research Co.,Ltd.,Maanshan 243000,China; 4.College of Communication and Information Engineering,Xi’an University of Science and Technology,Xi’an 710054,China)

Abstract:With the increasing applications of technologies such as 5G communication, edge computing, big data, and artificial intelligence in the coal mine production scenarios, the types of video equipment and functional systems have dramatically increased. To enhance the capacity of collaborative management and control and the level of intelligent decision-making for mining safe production, as well as to simultaneously solve the problems of low intelligence level, poor perception for deep information, and weak decision-making ability in all business systems throughout the mining production process, it is necessary to study the intelligent application of the video structured technology in different production scenarios in-depth, and establish a video structured analysis system for the intelligent mine with the abilities of cross-scenario situational awareness and collaboration, as well as the status monitoring of whole production process. This paper suggests to analyze the video data from five dimensions, i.e., person, machine, material, regulation, and circumstance, and then proposes to utilize the scenario recognition and rule modeling technologies to meet the business requirements of complex mine scenarios. Furthermore, the structural features of mine production business and rules are modeled to comprehensively analyze and hierarchically index the target features in terms of time, space and semantics. Based on the cloud-edge collaboration architecture, a cloud-edge collaboration video structured analysis platform for full-type structured data transmission, full-scenario semantic information fusion, and full-process production risk management is studied. This platform, empowered with the perception data upload and rule models download, is able to construct an unstructured data governance mode that conforms to the mine characteristics. Based on the in-depth analysis of mine safe production requirements and the technical characteristics of video structured analysis, this paper proposes to study the key technologies including video structured analysis mechanism, cognitive and rule modeling technology, personnel safety behavior analysis and supervision technology, equipment status joint analysis technology, and emergency coordination and linkage technology in the mine operation scenarios. These technologies are of great significance to build the mining video structural analysis system with the functions of both human supervision and production monitoring and boost the development of mining production systems from the local informatization to the collaborative intelligence of multi-system.

Key words:video structured analysis；full-scenario analysis；edge computing；cloud-edge collaboration；comprehensive management；intelligence of mining

随着深度学习、大数据分析以及云计算等技术的发展，矿山生产过程实现智能化、绿色化、高效化和低风险化是发展的必然趋势[1]。现有的矿山视频监控系统主要用于对生产过程的记录、传输、存储和显示[2-5]，以及对人员、设备、物料等目标进行部分的行为分析和状态监管，但缺乏对矿山生产过程风险的全流程监控和跨场景感知能力。随着视频监控在各类生产作业过程中的规模化应用，需要从单一场景应用转向对大规模视频监控进行跨场景关联分析[6-7]，通过提取视频数据中隐含的关键信息对视频内容进行快速识别、关联分析和智能决策，为矿山安全生产提供全流程生产要素的特征检索及全场景语义特征分析融合，进而实现对业务场景的综合风险评估和安全预警，为矿山人员督导及生产监控提供必要的决策支撑。

面向相关业务场景的矿山视频监控系统及分析方法已经得到了广泛的应用，文献[8]提出基于Canny算子边缘提取及SVM分类器的输送带撕裂视觉监测方法；文献[9]设计了一种带式输送机煤量监测方法，利用小波变换增强煤流图像，并结合K-mean聚类算法分割出煤流，再基于双目视觉获取煤流三维点云信息，最后利用T-S模糊推理修正算法计算煤流体积；文献[10]提出一种煤矸石视频检测方法，基于高斯混合模型实现视频背景分离，并采用粒子群算法对高斯混合模型进行优化；陈臻[11]面向煤矿巷道掘进作业场景开发的智能监测与预警系统，实现包括带式输送机堆煤监测预警及人员危险区域闯入监测预警等功能，并已在神华神东上湾煤矿试验应用；2020年6月，霍州煤电与山西联通在庞庞塔矿合作建设全国首个“5G矿井专网”，依托5G技术大带宽、广连接、低时延的特性[12]，对生产工作面、井下通风系统以及运输系统进行了智能化改造，搭建视频采集、智能分析、全面感知及三维展示等视频应用平台，初步探索了5G、人工智能、大数据等技术与行业的融合形态。

当前的矿山视频分析技术大多缺少深度信息感知及自适应学习能力，各系统间缺乏有效的数据融合和信息交互，同时单一的云服务架构难以支撑动态多变的矿山作业场景，实时感知数据与非实时决策数据由于安全性需求无法进行有效融合，缺乏在复杂时空环境下对矿山安全生产进行全局态势感知和协同主动决策的能力。矿山视频分析应用存在以下主要问题：

(1)感知手段单一，局限于视频数据的处理和分析应用，未能和已有的传感器应用相结合，造成支撑管理决策的信息深度不足，难以发现跨场景、跨形态数据的隐式关联，未能实现视频结构化数据与其他传感器数据的融合感知、协同决策及联动控制。

(2)传统集群式云计算服务的视频分析应用计算时延高、决策反馈不及时，无法满足时延敏感下的矿山态势感知需求，难以实现感知数据和决策数据的有效关联和实时传输，造成数据可靠性差和安全性低，同时其脱机运行能力差，存在过度依赖云服务器等问题。

(3)缺乏对作业环境的场景认知能力，识别差异性目标的鲁棒性差，不能为安全生产提供稳定高效的数据分析和决策支撑。

(4)未能对宏观和局部业务场景分级进行安全生产规则建模，难以对违规行为和场景的安全风险进行分级评估和主动预警，造成响应决策被动滞后。

笔者从“人、机、料、法、环”5个要素入手，提出利用场景认知和规则建模来适应矿山复杂业务场景下的视频分析需求，对目标检测、跟踪与重识别以及行为识别等视频结构化关键技术的矿山应用开展研究，并基于云边协同技术架构，探讨全流程生产状态监控、跨场景态势感知与协作的视频智能分析技术与应用。

1 视频结构化分析及应用

1.1 视频结构化分析

视频结构化技术利用各类特征提取算法对视频内容进行关键信息建模[6]，并对其加以归类存储，实现对相关内容的查找评估和分级索引(图1)。国外已经开发了许多基于内容的视频结构化系统，包括IBM研究中心开发的QBIC(Query by Image Content)[13]，美国哥伦比亚大学研制的VisualSeek[14]、VideoQ[15]，卡耐基梅隆大学的Informedia[16]，堪萨斯大学的VISION[17]等系统(图1)。

视频结构化分析技术已经在公共安防、城市应急管理以及智慧交通等领域得到应用，如阿里巴巴在杭州市建设的ET城市大脑项目，旨在利用视频结构化分析对交通监控资源、传感器数据进行实时感知和数据融合，及时识别交通事故、道路拥堵以及其他突发情况，实现对城市交通资源的全局优化和智能调配[18]；华为的平安城市解决方案从城市公共安防的角度出发，利用视频结构化技术分析海量监控数据，支持人员和车辆排查、暴力事件识别以及危险物品识别，实现视频结构化分析平台的跨区域联动监控、资源整合存储和协同调度管理。

如图2所示，视频结构化分析从技术角度分为特征建模和目标索引2个部分。

视频数据特征由浅入深可以分为浅层表观特征、深层语义特征以及场景属性特征。实际场景中典型的浅层表观特征有颜色特征、几何特征以及纹理和形态学特征等，此类特征可以用传统的手工设计算子进行特征提取[20]；深层语义特征包括目标类型、目标属性、目标运动轨迹以及目标当前状态等，深度学习算法能够对此类特征进行有效建模；更高维度的场景属性特征包括现场环境属性、人体行为属性以及复杂业务流程属性等，此类特征需要基于对低维结构化特征和深度语义特征的时空拓扑关系分析进行建模。特征建模通过提取以上各类特征，对视频中的人员、车辆、场景等目标进行分级特征存储[21]。匹配的层级特征建模能有效提高矿区复杂场景下的信息分级索引的准确性、鲁棒性和稳定性，为工作人员或车辆的督导监控任务提供有效的数据支撑和可靠的决策参考。

目标索引通过挖掘视域间共享信息，学习目标间不变性特征，对监控目标的结构化特征与后台数据库中的历史信息进行特征匹配，进而从差异性样本库中对人员、设备、行为、事件等目标进行识别，解决跨视域目标变化问题。从时间、空间以及语义等方面对特征进行组合分析与分级索引，为各生产场景提供目标检索、场景语义匹配、风险布控预警和数据统计等功能[21]。研究由低维特征到高维特征，由浅层信息到深层信息的视频结构化索引方法，能够增强现有视频监控系统对生产场景的深度认知能力和对安全风险的主动预警能力，提升矿山安全生产的综合治理水平。

1.2 矿山视频结构化分析现状

传统的矿山智能视频监控系统主要采用云计算和软件即服务(Software as a Service，SaaS)架构，利用云计算中心丰富的计算、存储及通信资源集中提供智能服务。

在具体的生产作业场景下，智能化应用应具有脱机运行或者就地处置的能力，要求控制系统对数据进行本地处理和自适应优化。边缘计算融合网络、计算、存储等核心应用能力，靠近数据源头与动作执行终端，即时完成决策反馈，就近提供边缘智能服务[22-25]。同时可以将本地处理结果按照数据类型分时上传云计算中心，在有效降低决策响应延时的基础上提高多类型数据传输效率。因此，为满足矿山作业场景下视频分析业务信息感知协同化、信息传输快捷化、数据分析智能化以及决策响应主动化的发展需求，未来的矿山视频结构化分析平台应利用云边协同增强数据传输速率，以突破实时性差和决策响应滞后等瓶颈性问题，为海量高维数据的集群训练、敏捷分析及快速响应业务奠定基础[26]。

2 云边协同视频结构化分析平台

2.1 云边协同架构

从数据特性上可以把智能视频分析分为时延敏感和强语义两类任务。如图3所示，时延敏感任务面向解决局部生产场景的态势感知和决策反馈，此类任务数据属于即时性和短周期的本地决策型，规模较小同时实时性和安全性需求较高，适合将其下放于边缘计算节点；强语义任务面向解决复杂环境下的场景认知问题，需要对大规模特征进行关联分析和综合决策，相关分析数据属于非实时、长周期的业务决策型，需要被上传至区域边缘节点或者云计算中心，利用集中的资源优势进行跨场景的特征融合与全场景的业务决策[29]。

笔者采用云边协同的矿山视频分析架构。针对矿山业务特点，在边缘侧建立区域边缘节点和边缘计算节点的2层计算架构：区域边缘节点的矿端边缘服务器资源较为丰富，主要面向工作面、运输巷等重点区域提供区域资源整合与协同分析决策服务；而边缘计算节点更加靠近业务前端，主要面向局部作业场景的视频监控与分析业务。

如图4所示，区域边缘节点和边缘计算节点共同构成矿山视频分析的边缘侧计算架构，其中边缘计算节点强调对于局部场景的视频分析与即时响应能力，如局部场景下人员安全行为识别、危险区域闯入预警以及设备故障检测等；而区域边缘节点则对区域性业务场景进行协同态势感知，通过对相似局部场景多源异构信息的智能关联，实现工作面区域的决策优化；最终在云计算层对全矿山场景数据进行协同管控。

综上，在云边协同架构上进行视频结构化分析是未来矿山实现全场景风险联合管控和全流程生产应急协同的关键，应该研发能够快速进行全系列结构化数据传递、全场景语义信息融合以及全流程生产风险管控的云边协同视频结构化分析平台。

2.2 云边协同视频结构化分析平台

笔者提出图5所示的矿山云边协同视频结构化分析平台。该平台面向2种典型矿山业务数据进行高效数据治理：非实时、强语义决策数据的云侧上载以及强实时、弱语义决策数据的边缘侧下放。

云计算平台运行以下服务：

(1)数据接入服务。对边缘侧回传的原始数据进行格式转化、属性标注以及样本增强等预处理操作，以提高数据分析效率和准确性。

(2)AI开发平台。对经过预处理后数据进行大数据分析、规则的数字化建模以及AI模型的训练和升级。通过对视频数据进行更深入的结构化特征建模及和大规模内联拓扑关系分析，对各场景业务逻辑进行关系编码与语义建模，实现复杂场景下的业务属性感知及强语义信息提取。

(3)容器镜像服务。对各类智能应用以函数、容器或虚拟机的形式进行软件包装，方便对服务进行跨平台移植与维护。

(4)智能边缘平台。对边缘资源进行可视化管理，在系统层面对软硬件设施进行整合，实现对边缘计算节点、区域边缘节点的管理调度以及对边缘容器应用的远程部署、日志采集以及配置管理。

在边缘计算侧，部署在边缘计算设备上的AI算法以各类AI架构为基础，以函数、容器或虚拟机等应用形式为载体，利用目标检测[30]、目标重识别[33]、轨迹跟踪[35]、轨迹预测[38]、行为识别[42]、实例分割[44]以及场景理解[46]等模型实现智能边缘推理和结构化特征分析，并根据边缘计算设备的特点进行各硬件单元间的异构加速和资源优化。

云边协同的视频结构化分析平台将云端数据和边缘数据进行敏捷联接，弥补单一云架构下视频结构化分析应用在时延敏感、离线运行以及场景鲁棒性等方面的不足，加速云边数据动态融合，让数据上行、规则下行，形成更加符合矿山工业形态的非结构化数据治理模式。

3 矿山生产作业场景视频结构化分析关键技术

3.1 矿山作业场景视频结构化分析机制

“人、机、料、法、环”是矿山作业中影响生产质量的5个主要要素，能够全面地表征矿山安全生产管理过程中的所有场景和全部流程[48]，任意一个要素都对应着矿山生产过程中的具体环节。其中，“人”即矿山人员的工作状态，对矿山人员行为进行分析和督导，通过分析人员工作监控数据，建立可追溯的业务能力评估体系及危险行为预警机制；“机”即矿山内各类生产设备的运行状态，通过分析各类设备运行数据进行设备状态监控，即时发现运行故障；“料”即生产物料的流转状态，包括对各生产环节的煤流、矸石、废水及其他生产器械的位置监控，建立物料转运与洗选环节的实时监控体系；“环”即矿山生产环境状态，由于生产环境的多变性与复杂性，需要进行复杂场景环境认知，以提高智能视频分析应用的场景鲁棒性和准确性，并面向不同场景特征进行生产规则的匹配与建模；“法”指矿山不同生产场景下各类设备、人员的生产作业规则。

围绕采矿行业存在的“5难”问题，即人员行为难监督(人)、设备运行状态难监控(机)、生产物料流转难跟踪(料)、生产规则难落实(法)、复杂生产环境难感知(环)。如图6所示，面向“人、机、法、料、环”进行全场景生产要素感知，建立集人员行为督导、设备状态监控、物料流转跟踪、生产规则建模以及复杂场景认知于一体的矿山安全生产管控平台，对矿山生产进行全面排查、定量分析、分级预警，提高其风险管控能力和应急协同水平[49]。

在对安全生产过程中人、机、料、法、环5个要素进行结构化特征提取与信息感知的基础上，结合特定业务场景下的生产法规，对结构化特征进行融合分析及语义信息挖掘，完成各生产场景的风险评估与决策预警，同时在运行过程中不断完善违规场景数据库，实现决策模型的更新迭代和性能升级。

3.2 矿山作业场景认知与规则建模技术

3.2.1 矿山复杂作业场景认知技术

现有单一场景模型无法满足矿山复杂场景的分析需求，需要从场景认知与场景特征融合的角度，研究复杂作业场景认知技术，解决目标表观变化场景下的目标跟踪[50]以及典型生产场景的准确认知2个关键问题，进而为作业场景中的人员、设备、物料等目标提供精准、鲁棒、稳定的视频结构化分析服务。

(1)基于表观变化场景认知的目标跟踪。如图7所示，矿山作业场景下的目标跟踪任务易受复杂、多变的作业场景的干扰，如目标自身变化或刚性遮挡等，矿山作业中常见人员施工过程中自身姿态发生变化或对设备进行操作过程中身体被大型设备遮挡。

表观变化场景认知模型。为了对矿山目标表观变化场景进行认知，辨别当前目标表观变化类型，可以利用目标异常点块重心变化认知模型推断目标遮挡或姿态变化场景：遮挡情况下，遮挡块只发生刚性形变，重心不发生变化；目标自身姿态变化时，异常部位发生非刚性形变，其重心位置明显变化。不同表观变化场景对应不同的跟踪模板匹配策略：目标自身姿态变化场景下采用专家累积代价融合规则；遮挡场景下则根据专家离席原则停止更新表观特征匹配专家训练模型，可以提高不同作业场景下矿山目标跟踪的鲁棒性和准确性。

专家代价融合跟踪。传统目标跟踪是利用当前目标与目标模板之间的特征匹配专家代价来确定跟踪目标位置，但矿山复杂作业场景下目标表观常发生剧烈变化，单独使用特征匹配进行跟踪目标的预测十分困难。为了提高矿山作业场景下表观剧烈变化目标的跟踪鲁棒性，可借鉴长短期记忆网络(Long Short-Term Memory,LSTM)，引入轨迹预测专家对后续帧中目标的运动轨迹进行预测。待跟踪目标经过特征匹配专家和轨迹预测专家滤波器得到背景路径模型，并结合输入视频帧的多尺度特征计算轨迹预测和特征匹配专家响应，最终融合2种专家代价，实现对跟踪目标位置的综合预测[54]，如图8所示。

(2)基于区域深度分割的典型矿山场景认知。如图9所示，典型的煤矿生产场景包含工作面场景、掘进场景、供电场景、胶带运输场景、通风场景等，每个场景都有独立的生产规则。为了提高视频结构化应用在不同作业场景下的识别鲁棒性，进行生产规则建模，需要对典型矿山生产场景进行属性认知，从而为后续的视频结构化分析提供宏观的场景先验信息。

笔者提出图10所示基于区域深度分割的典型矿山场景认知方法(图10中，P1，…，Pn为矿山中与物料相关的关键属性，如物料表观形态、位置分布、运动轨迹等； E1，…，En为与环境相关的关键属性，如瓦斯与氧气体积分数，明火与烟雾检测，冲击地压信号监测等)，在对待识别模板中各生产元素进行实例分割的基础上，进一步对各生产元素的区域深度信息进行分割，如人员的头部、躯干和四肢，车辆的机头、机身和机尾等[44]。

矿山作业场景大多存在复杂的生产要素交互过程，同一场景下的不同交互形态更是对应了不同的生产流程，为了对各场景属性和生产流程进行精准认知，需要在对目标区域深度分割结果进行特征融合及尺度归一化的基础上，实现生产要素间的空间拓扑关系建模。

3.2.2 生产规则建模及匹配技术

在场景认知的基础上需研究图11所示生产规则建模及匹配技术，对矿山生产规则进行数字化表示，使其能够精准快速匹配不同场景生产下的违规特征，及时发现违规行为，缓解煤炭各生产业务场景下生产规则难落实的问题，为视频结构化分析平台提供索引依据和比对基准。

基于区域深度分割的矿山典型场景认知包含以下流程:

(1)基于场景认知结果，综合视频结构化分析平台和传感监测系统对典型场景进行异构数据的结构化特征重构，剔除冗余特征，保留影响场景属性的关键特征。

(2)对重构特征进行关联融合，完成智能系统间的信息交互及协同分析；以生产规则为指导，利用几何约束、空间拓扑及时间约束，在多维空间中对历史数据进行规则数字化建模，建立违规样本数据库。

(3)基于交叉熵损失、均方误差损失以及排列损失等对各违规分类模型进行训练，建立由点到面、由局部到宏观的安全风险分级评估体系，建设煤矿全生产场景、全业务流程的决策信息融合系统。

3.3 人员安全行为分析督导技术

人员行为的规范化是降低矿山事故风险，提高生产效率的关键。安全行为分析督导技术基于人体行为识别[56]、实例分割[44]以及单目视觉相机标定技术[57]，判断人员是否处于散漫、懈怠的状态以及是否在进行危险的操作，如长时间怠工、不遵守安全指令、非法闯入危险区域、危险姿态靠近运行设备[58]以及非法抢占运输资源等。

3.3.1 人体行为识别技术

人体行为识别技术可以分为人体姿态估计[59]和关键点分类[62]2个步骤，首先利用人体姿态估计算法对人体关键点进行提取，随后利用卷积神经网络或图卷积神经网络[56]对关键点进行形态特征提取和空间拓扑关系建模，最后利用分类器完成对当前行为的分类和识别。

(1)人体姿态估计。人体姿态估计技术是利用卷积神经网络对出现在图像中的人体关键点进行识别和标注，它既需要模型能够捕获小尺度细节目标，又需要模型能够很好地对大尺度下的关联信息进行隐式表达，图12为人体姿态估计典型的网络结构(图12中，F1为三通道输入图片的特征分布；F2为输入F1经过降采样卷积之后得到的降采样特征；F3为特征图F2经过上采样卷积之后得到的输出特征； W，H为相应特征图的空间维度尺寸； C，K为特征F2和特征F3的通道维度尺寸)，图13为常用的人体关键点模型。

(2)基于关键点信息的动作识别技术。基于关键点信息的动作识别技术利用深度神经网络进行静态帧和帧间特征提取。每一帧图片中的关键点位置信息组合为一份人体姿态样本，使用大量标注好的姿态样本对分类器进行训练，识别静态帧中人体动作[62]。考虑到视频中的人员动作具有连贯性，通常前后多帧的关联性很大，所以在静态动作识别的基础上加入帧间动态特征提取模型，如图14所示。随后对静态特征和帧间特征进行特征融合并构建特征编码模型，通过分类器实现动作属性识别[56]。

3.3.2 基于实例分割的矿山危险区域闯入报警

基于实例分割的危险区域闯入报警技术通过分析传感器数据识别危险区域范围，再利用单目视觉相机标定技术对危险区域进行感兴趣区域(Region Of Interest，ROI)标注，使用图15所示实例分割模型[44]对监控范围内的人体目标进行分割，对人体像素点和ROI区域像素点的交集进行计数，计算得到人体与ROI的像素重叠度，以此对人员和危险区域的空间拓扑关系进行建模，如图16所示(图16中，PROI，PPerson分别为ROI区域中以及人体分割区域内各自的像素数目)，当重叠度大于一定阈值T%时进行危险区域闯入报警(T为重叠像素比例的门阀阈值)。

3.4 设备状态视频监控联合分析技术

传统的煤矿设备故障诊断技术主要利用接触式传感器从设备运行信号中提取特征，通过数字信号处理分析运行状态，识别设备故障，这种故障诊断方式存在着寿命短、维护成本高以及感知精度低等问题[63]。视频结构化技术能够以非接触的方式对设备运行状态进行判断，故障监测时有更高的精度和鲁棒性。但仅依赖可见光信号无法反映完整的设备运行状态，还需与热成像等信号相结合才能实现对设备状态的全面分析。

如图17所示，充分利用红外、热敏等各类视觉传感器，结合煤矿不同设备的运行规律对其运行状态进行跨模态特征建模，如形态、尺寸以及热成像分布等，并对跨模态特征进行关联分析和自适应加权融合，通过特征映射进行时空拓扑关系分析，共同构建基于历史信息的故障数据知识库。最后利用度量学习[64]在故障数据知识库中进行查询和比对，实现对设备运行状态的联合分析和综合评估。

3.5 视频分析应急协同与联动技术

现有的各种矿山视频监控系统结合生产自动化系统建设，仅能对单一生产场景或流程进行状态监控，无法在跨工作面场景下进行数据分析和决策，也无法对同一生产场景下的不同生产流程建立时域关联。

如图18所示，为打破跨生产场景下的空间阻隔和全生产流程下的时域壁垒，在对典型矿山生产场景的认知基础上进行特征融合与尺度归一化，结合局部场景生产规则与跨场景协作规则进行时空特征建模与匹配，实现跨场景的态势感知与协作和全流程的生产状态监控。

4 结论

(1)建议从人、机、料、法、环5个维度融合分析视频数据，利用场景认知和规则建模以适应矿山复杂场景下的业务需求，深入研究视频结构化技术在相关生产场景下的智能化应用。

(2)建议对矿山生产业务及规则进行视频结构化特征建模与关键目标信息索引，在云边协同技术架构下，研发能够快速进行全系列结构化数据传递、全场景语义信息融合以及全流程生产风险管控的云边协同视频结构化分析平台，优化矿山工业非结构化数据治理模式。

(3)提出矿山作业场景视频结构化分析机制、矿山作业场景认知与规则建模技术、人员安全行为分析督导技术、设备状态视频监控联合分析技术、视频分析应急协同与联动技术等关键技术，对建立集人机督导和生产监控于一体的智慧矿山生产视频结构化分析系统，促进矿山安全生产系统由局部信息化、自动化向多系统协同智能化发展具有重要意义。

[1] 王国法,范京道,徐亚军,等. 煤炭智能化开采关键技术创新进展与展望[J]. 工矿自动化,2018,44(2):5-12.

WANG Guofa,FAN Jingdao,XU Yajun,et al. Innovation progress and prospect on key technologies of intelligent coal mining[J]. Industry and Mine Automation,2018,44(2):5-12.

[2] 尹良飞.图像语义描述技术研究及煤矿场景应用[D]. 徐州：中国矿业大学,2019.

YIN Liangfei. Research on image captioning and application[D]. Xuzhou：China University of Mining and Technology,2019.

[3] 孙继平. 煤矿信息化自动化新技术与发展[J]. 煤炭科学技术,2016,44(1):19-23,83.

SUN Jiping. New technology and development of mine information and automation[J]. Coal Science and Technology,2016,44(1):19-23,83.

[4] 孙继平,田子建. 矿井图像监视系统与关键技术[J]. 煤炭科学技术,2014,42(1):65-68.

SUN Jiping,TIAN Zijian. Image monitoring system and key technology in underground mine[J]. Coal Science and Technology,2014,42(1):65-68.

[5] 姜代红. 煤矿监控图像拼接与识别的方法研究[D]. 徐州：中国矿业大学,2015.

JIANG Daihong. Research on stitching and recognition of coal mine monitoring images[D]. Xuzhou：China University of Mining and Technology,2015.

[6] 孙朋,丁明皓. 视频大数据中自动特征提取技术的应用[J]. 中国安全防范技术与应用,2020(2):50-52.

SUN Peng,DING Minghao. Application of automatic feature extraction technology in video big data[J]. China Security Protection Technology and Application，2020(2):50-52.

[7] 赵晓萌. 云环境下监控视频结构化分析方法研究与实现[D]. 北京：北京邮电大学,2015.

ZHAO Xiaomeng. Research and implementation of surveillance video structure analysis method in cloud[D]. Beijing：Beijing University of Posts and Telecommunications,2015.

[8] 王福斌,孙海洋,TU Paul. 边缘扩展的皮带撕裂支持向量机视觉检测[J]. 中国机械工程,2019,30(4):455-460.

WANG Fubin,SUN Haiyang,TU Paul. Visual Inspection for extended edge belt tearing based on SVM[J]. China Mechanical Engineering,2019,30(4):455-460.

[9] 代伟,赵杰,杨春雨,等. 基于双目视觉深度感知的带式输送机煤量检测方法[J]. 煤炭学报,2017,42(S2):547-555.

DAI Wei,ZHAO Jie,YANG Chunyu,et al. Detection method of coal quantity in belt conveyor based on binocular vison depth perception[J]. Journal of China Coal Society,2017,42(S2):547-555.

[10] 程健,王东伟,杨凌凯,等. 一种改进的高斯混合模型煤矸石视频检测方法[J]. 中南大学学报(自然科学版),2018,49(1):118-123.

CHENG Jian,WANG Dongwei,YANG Lingkai,et al. An improved Gaussian mixture model for coal gangue video detection[J]. Journal of Central South University(Science and Technology),2018,49(1):118-123.

[11] 陈臻. 煤矿巷道掘进作业智能监测与安全预警技术研究[D]. 北京：煤炭科学研究总院,2018.

CHEN Zhen. Research on intelligent monitoring and safety early warning technology of mine roadway tunneling[D]. Beijing：China Coal Research Institute,2018.

[12] 孙彦景,霍羽,陈岩,等. 矿山动态协同作业场景无线通信关键技术[J]. 煤炭学报,2021,46(1):321-332.

SUN Yanjing,HUO Yu,CHEN Yan,et al. Survey on key technology of service attribute driven wireless communication for dynamic cooperative operations in mining scenarios[J]. Journal of China Coal Society,2021,46(1):321-332.

[13] NIBLACK C W,BARBER R,EQUITZ W,et al. QBIC project:Querying images by content,using color,texture,and shape，in Storage and retrieval for image and video databases[A]. International Society for Optics and Photonics[C]. San Jose,1908(1993):173-187.

[14] SMITH J R. VisualSEEk:A fully automated content-based image query system[J]. Acm Multimedia Boston Ma,1996.

[15] CHANG S F,CHEN W,MENG H J,et al. VideoQ:An automated content based video search system using visual cues[A]. In Proceedings of the Fifth ACM International Conference on Multimedia[C]. Seattle,1997:313-324.

[16] WACTLAR H D,CHRISTEL M G,GONG Y,et al. Lessons learned from building a terabyte digital video library[J]. Computer,1999,32(2):66-73.

[17] LI W,GAUCH S,GAUCH J,et al. Vision:A digital video library[A]. Proceedings of the first ACM International Conference on Digital libraries[C]. Philadelphia，1996:19-27.

[18] 梅雅鑫. 阿里云:打造三层边缘计算能力—构建云边端协同的开放生态[J]. 通信世界,2019(11):44.

MEI Yaxin. Alibaba Cloud:Building three-tier edge computing capabilities—building an open ecosystem of cloud-side-end collaboration[J]. Communication World,2019(11):44.

[19] 华先胜,黄建强,沈旭,等. 城市大脑：云边协同城市视觉计算[J]. 人工智能,2019(5):77-91.

HUA Xiansheng,HUANG Jianqiang,SHEN Xu,et al. City brain:City visual computing based on cloud edge synergy[J]. Artificial Intelligence View,2019(5):77-91.

[20] 张振原. 视频内容结构化分析的研究和应用[D]. 上海：复旦大学,2008.

ZHANG Zhenyuan. Research and application of video structure analysis[D]. Shanghai:Fudan University,2008.

[21] 陈杰. 基于视频结构化描述的图像综合平台应用研究[D]. 苏州：苏州大学,2014.

CHEN Jie. Based on structured description of video image integrated platform application research[D]. Suzhou:Soochow University,2014.

[22] 傅耀威,孟宪佳. 边缘计算技术发展现状与对策[J]. 科技中国,2019(10):4-7.

FU Yaowei,MENG Xianjia. The development status and countermeasures of edge computing technology[J]. China Scitechnology Business,2019(10):4-7.

[23] 施巍松,张星洲,王一帆,等. 边缘计算:现状与展望[J]. 计算机研究与发展,2019,56(1):69-89.

SHI Weisong,ZHANG Xingzhou,WANG Yifan,et al. State-of-the-art and future directions[J]. Journal of Computer Research and Development，2019,56(1):69-89.

[24] 施巍松,孙辉,曹杰,等. 边缘计算:万物互联时代新型计算模型[J]. 计算机研究与发展,2017,54(5):907-924.

SHI Weisong,SUN Hui,CAO Jie,et al. Edge computing—an emerging computing model for the internet of everything era[J]. Journal of Computer Research and Development. 2017,54(5):907-924.

[25] RYAN LaMothe. Edge Computing[R]. Richland,WA：Pacific No-rthwest National Laboratory,2013.

[26] 王国法,赵国瑞,胡亚辉. 5G技术在煤矿智能化中的应用展望[J]. 煤炭学报,2020,45(1):16-23.

WANG Guofa,ZHAO Guorui,HU Yahui. Application prospect of 5G technology in coal mine intelligence[J]. Journal of China Coal Society,2020,45(1):16-23.

[27] 王国法,庞义辉,任怀伟,等. 煤炭安全高效综采理论、技术与装备的创新和实践[J]. 煤炭学报,2018,43(4):903-913.

WANG Guofa,PANG Yihui,REN Huaiwei,et al. Coal safe and efficient mining theory,technology and equipment innovation practice[J]. Journal of China Coal Society,2018,43(4):903-913.

[28] 王国法,刘峰,庞义辉,等. 煤矿智能化——煤炭工业高质量发展的核心技术支撑[J]. 煤炭学报,2019,44(2):349-357.

WANG Guofa,LIU Feng,PANG Yihui,et al. Coal mine intellectualization:The core technology of high quality development[J]. Journal of China Coal Society,2019,44(2):349-357.

[29] 姜德义,魏立科,王翀,等. 智慧矿山边缘云协同计算技术架构与基础保障关键技术探讨[J]. 煤炭学报,2020,45(1):484-492.

JIANG Deyi,WEI Like,WANG Chong,et al. Discussion on the technology architecture and key basic support technology for intelligent mine edge-cloud collaborative computing[J]. Journal of China Coal Society,2020,45(1):484-492.

[30] CAO J,CHOLAKKAL H,ANWER R M,et al. D2det:Towards high quality object detection and instance segmentation[A]. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition(CVPR) [C]. Seattle,2020:11485-11494.

[31] TAN M,PANG R,LE Q V. Efficientdet:Scalable and efficient object detection[A]. Proceedings of the IEEE/CVF conference on Computer Vision and Pattern Recognition(CVPR) [C]. Seattle,2020:10781-10790.

[32] REN S,HE K,GIRSHICK R,et al. Faster R-CNN:Towards real-ti-me object detection with region proposal networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2017,39(6):1137-1149.

[33] ZHU F,KONG X,ZHENG L,et al. Part-based deep hashing for large-scale person re-identification[J]. IEEE Transactions on Image Processing,2017,26(10):4806-4817.

[34] 王艳芬,朱绪冉,云霄,等. 面向公共安全监控的多摄像机车辆重识别[J]. 西安电子科技大学学报,2019,46(4):190-196.

WANG Yanfen,ZHU Xuran,YUN Xiao,et al. Vehicle re-identification by multi-cameras for public security surveillance[J]. Journal of Xidian University,2019,46(4):190-196.

[35] ROSS D A,LIM J,LIN R S,et al. Incremental learning for robust visual tracking[J]. International Journal of Computer Vision,2008,77(1-3):125-141.

[36] YANG Y,HU W,XIE Y,et al. Temporal restricted visual tracking via reverse-low-rank sparse learning[J]. IEEE Transactions on Cybernetics,2016,47(2):485-498.

[37] VALMADRE J,BERTINETTO L,HENRIQUES J,et al. End-to-end representation learning for correlation filter based tracking[A]. 2017 IEEE Conference on Computer Vision and Pattern Recognition(CVPR)[C]. Honolulu，2017,2805-2813.

[38] ALAHI A,GOEL K,RAMANATHAN V,et al. Social LSTM:Human trajectory prediction in crowded spaces[A]. 2016 IEEE Conference on Computer Vision and Pattern Recognition(CVPR)[C]. Las Vegas，2016，961-971.

[39] SU H,ZHU J,DONG Y,et al. Forecast the plausible paths in crowd scenes[A]. International Joint Conference on Artificial Intelligence(IJCAI)[C]. Melbourne,2017:2772-2778.

[40] GUPTA A,JOHNSON J,FEI-FEI L,et al. Social GAN:Socially acceptable trajectories with generative adversarial networks[A]. 2018 IEEE Conference on Computer Vision and Pattern Recognition(CVPR)[C]. Salt Lake City,2018：2255-2264.

[41] XU Y,PIAO Z,GAO S. Encoding crowd interaction with deep neural network for pedestrian trajectory prediction[A]. IEEE Conference on Computer Vision and Pattern Recognition(CVPR)[C]. Salt Lake City,2018:5275-5284.

[42] LE Q V,ZOU W Y,YEUNG S Y,et al. Learning hierarchical invariant spatio-temporal features for action recognition with independent subspace analysis[A]. IEEE Conference on Computer Vision and Pattern Recognition(CVPR)[C]. 2011,3361-3368,doi:10. 1109/CVPR. 2011. 5995496.

[43] YAN S,XIONG Y,LIN D. Spatial temporal graph convolutional networks for skeleton-based action recognition[A]. AAAI Conference on Artificial Intelligence[C]. 2018.

[44] HE K,GKIOXARI G,DOLLAR P,et al. Mask R-CNN[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2020,42(2):386-397.

[45] CHEN K,PANG J,WANG J,et al. Hybrid task cascade for instan-ce segmentation[A]. 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR)[C]. IEEE,2019:4969-4978.

[46] ZOLFAGHARI M,SINGH K,BROX T. ECO:Efficient convolutional network for online video understanding[A]. European Conference on Computer Vision[C]. Munich Germany,2018:713-730.

[47] XIAO T,LIU Y,ZHOU B,et al. Unified Perceptual Parsing for Sc-ene Understanding[A]. European Conference on Computer Vision[C]. Munich Germany，2018:432-448.

[48] 李威君,刘伟韬,刘音. “人机料法环”全面质量管理视角下的城市风险治理研究[J]. 中国应急管理科学,2019(Z6):81-86.

LI Weijun,LIU Weitao,LIU Yin. Urban risk control from the perspective of total quality management with “man-machine-material-method-environment”[J]. China Emergency Management Science,2019(Z6):81-86.

[49] 韩茜. 智慧矿山信息化标准化系统关键问题研究[D]. 北京：中国矿业大学(北京),2016.

HAN Qian. Study on key issues of intellimine informatization standardization system[D]. Beijing：China University of Mining and Technology(Beijing),2016.

[50] 孙彦景,王赛楠,石韫开,等. 基于全局背景与特征降维的视觉跟踪算法[J]. 电子与信息学报,2018,40(9):2135-2142.

SUN Yanjing,WANG Sainan,SHI Yunkai,et al. Visual tracking algorithm based on global context and feature dimensionality reduction[J]. Journal of Electronics & Information Technology,2018,40(9):2135-2142.

[51] YUN X,SUN Y,WANG S,et al. Multi-layer convolutional network-based visual tracking via important region selection[J]. Neurocomputing,2018,315(13):145-156.

[52] CHU Q,OUYANG W,LI H,et al. Online multi-object tracking using CNN-based single object tracker with spatial-temporal attention mechanism[A]. 2017 IEEE International Conference on Computer Vision(ICCV)[C]. IEEE,2017:4846-4855.

[53] YUN X,XIAO G. Spiral visual and motional tracking[J]. Neurocomputing,2017,249(2):117-127.

[54] MA Y,ZHU X,ZHANG S,et al. Traffic predict:Trajectory predic-tion for heterogeneous traffic-agents[A]. AAAI Conference on Artificial Intelligence[C]. Honolulu,2019,33(1):6120-6127.

[55] WANG L,ZHANG L,YI Z. Trajectory predictor by using recurrent neural networks in visual tracking[J]. IEEE Transactions on Cybernetics,2017,47(10):3172-3183.

[56] FEICHTENHOFER C,FAN H,MALIK J,et al. Slow fast networks for video recognition[A]. 2019 IEEE/CVF International Conference on Computer Vision(ICCV)[C]. IEEE Computer Society,2019:6201-6210.

[57] ZHANG Z. A flexible new technique for camera calibration[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2000,22(11):1330-1334.

[58] 孙彦景,董锴文,云霄,等矿井下皮带运输人员人机交互行为安全监控与预警方法[P]. 中国专利:CN110425005B,2020-06-30.

[59] ZHANG F,ZHU X,DAI H,et al. Distribution-aware coordinate representation for human pose estimation[A]. 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR)[C]. Seattle，2020:7091-7100.

[60] CAO Z,HIDALGO G,SIMON T,et al. OpenPose:realtime multi-person 2D pose estimation using part affinity fields[J]. IEEE transactions on pattern analysis and machine intelligence,2019,43(1):172-186.

[61] SUN K,XIAO B,LIU D,et al. Deep high-resolution representation learning for human pose estimation[A]. 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR)[C]. IEEE,2019:5686-5696.

[62] MA F,ZHU L,YANG Y,et al. SF-Net:Single-frame supervision for temporal action localization[A]. European Conference on Computer Vision(ECCV)[C]. Springer,2020:420-437.

[63] 马培赓. 煤矿设备诊断预警系统设计与实现[D]. 北京:北京工业大学,2013.

MA Peigeng. The mine equipment diagnosis system design and implementation for early warning[D]. Beijing :Beijing University of Technology,2013.

[64] WEINBERGER K Q,SAUL L K. Distance metric learning for large margin nearest neighbor classification[J]. Journal of Machine Learning Research,2009,10(2).