多机械臂多钻机协作的煤矿巷道钻锚机器人关键技术

近年来，国家和煤炭行业采取有效措施，强力推进煤矿巷道掘进工作面的智能化，使得“采快掘慢”严重失衡问题得到有效缓解，但“掘快支慢”的难题仍亟待破解。为了提高永久支护的效率，国内外学者和相关企业先后成功研发了具有环形锚杆仓的自动钻锚台车、具有自主行驶和自动钻锚功能的钻锚机器人等新型钻锚技术和装备，有力推动了掘进支护技术的创新和进步。回顾和总结国内外在钻锚自动化、机器人化以及类似多任务、多机械臂协同控制系统等方面的研究现状，分析在钻锚设备布局优化、机械臂姿态控制、机械臂轨迹规划和多机协同控制等方面的重要研究进展，必将对进一步深入研发高性能、高质量、高智能、高效率的钻锚设备具有重要推动作用。

(1)钻锚设备布局优化技术研究现状。广义上讲，钻锚设备布局属于设施布局问题(Facility Layout Problem，FLP)[1]。该问题研究的方法主要分为两大类。第1类为基于规则或仿真的方法，其原理主要是依据作业单元的功能与各单元之间的互相关系、物流关系、面积条件等进行分析，并根据实际制约与其他修正条件做出修改从而得到布置方案。另一类研究方法为基于数学规划的求解方法，该方法将问题转化为一个混合整数规划问题[2]。根据目前的文献研究，现有的设备布局形式大多是依据经验总结，大致分为机群式布局、单元布局、模块化布局、分布式布局、敏捷布局、可重组布局等。席万强 [3]以占地面积最小、作业周期最短及最小条件数为优化目标，采用权重系数表示这3个指标的重要程度，并利用 GA-PSO混合算法优化了多机器人的布局位置。GADALETA M等[4]提出了一种在作业单元内优化多台工业机器人布局位置的方法，通过使用合适的优化技术计算最佳的作业空间布局，以便以最小的能耗执行一组指定的任务。项彬彬等[5]将机器人的可达工作空间用作约束条件，通过逆运动学求解最终位置集，确定为灵巧空间，运用遗传算法优化了机器人工作单元的布局。LIM Z Y等[6]提出了基于遗传算法、差分进化算法等5种启发式算法的机器人工作单元系统多目标布局优化方法。

由此可见，虽然国内外学者针对FLP问题进行了大量的研究，并应用于工业生产线上机械臂的布局优化中，但针对煤矿井下钻锚机器人布局优化鲜见报道。钻锚机器人工作在井下复杂的有限时空约束条件下，布局优化难度更大。因此，在复杂受限的煤矿巷道空间和掘锚并行的时间约束下，建立钻锚机器人多机械臂与多钻机最优配置模型，是研发钻锚机器人亟待破解的关键技术难题。

(2)机械臂姿态控制技术研究现状。机械臂姿态控制技术研究方法主要分为两大类：一类是建立姿态轨迹数学模型，计算插补参数，获得装卸曲线。由于机械臂末端姿态位于SO(3)，即三维旋转群，很多对于欧几里德空间中位置曲线构造的性质并不能直接应用于构造姿态曲线，且姿态的描述方式相对复杂。谢文雅[7]提出了一种基于四元数的机器人姿态轨迹规划算法，研究了2点间姿态插补曲线和样条插补曲线的构造和拼接方法。王效杰[8]使用四元数样条曲线作为姿态插补曲线，并通过采用球面线性插补的方式对样条曲线首尾增加示教点，使曲线首末与示教点重合，但此类方法需要对曲线的控制顶点进行迭代求解，计算量较大。另一类是通过相关传感器感知环境，生成装配路径，并运用伺服控制技术进行相应姿态控制的方法。这类方法包括基于示教学习、视觉反馈、力反馈以及多种方法融合等。YANG Y等[9]针对轴孔装配，提出了一种示教学习的方法，获取人类示教的PiH轨迹，并允许机器人对PiH轨迹进行微调，以获取更快的性能。LITVAK Y等[10]将深度相机安装在机械臂末端执行器上进行装配任务，并提出一个基于深度学习的两阶段位姿估计方法，该方法使用仿真深度图像进行训练，可直接迁移用于真实机械臂装配任务中。WYK K V等[11]制造了一个指尖带有力传感器的机械手，并基于力传感器实现轴孔装配控制策略。SONG H C等[12]在机器人上安装力矩传感器和手眼相机，并将阻抗控制策略与视觉伺服相结合，完成电缆连接器的装配任务。

由此可见，传统的机械臂装卸姿态控制主要使用编程的方法预先设定机械臂的移动路径，从而完成固定重复的装卸动作。然而，钻锚机器人机械臂需要在受限空间内与钻机协作完成装卸细长钻杆、软药卷和细长锚杆等复杂任务，并且钻机位姿和锚孔位姿是复杂多变的，导致钻锚机器人机械臂位姿控制难度较大。因此，深入研究机械臂末端位姿智能控制方法，是研发钻锚机器人亟待破解的关键技术难题。

(3)机械臂避障轨迹规划技术研究现状。机械臂避障轨迹规划最常用的是人工势场法[13]。陈满意等[14]提出了低振荡人工势场与ARRT相结合的混合算法，实现多障碍环境下的机械臂末端路径规划。陈劲峰等[15]引入距离调节因子和屏蔽无效障碍的策略，解决动态避障逃离最优问题。郭彤颖等[16]将蚁群算法和人工势场法结合，在避障前提下，实现最优轨迹规划。史亚飞等[17]在传统势场中添加速度势场，对逃离局部最小点有明显的效果。朱瑞明等[18]针对传统的人工势场法在半封闭壳体环境下无法直接规划出作业杆避障路径的问题，提出了一种复合势场和寻优算法相结合的在线自优化避障规划算法。

另外，KEW J C等[19]提出基于神经网络的启发式搜索算法—ClearanceNet。ClearanceNet通过估计构型样本空间中机器人与障碍物的最小碰撞距离进行碰撞检测，从而在运动规划过程中提供代价梯度信息。TOUSSAINT M等 [20]提出基于深层神经网络和序列优化算法结合，在环境约束下的机械臂轨迹规划。OVERMARS M H等[21]提出了概率路线图算法，通过随机采样方式确认规划路径的可行解，极大的缩减了规划路径花费的时间，只需要调整相应参数就可以用在不同场景中。新型智能算法近年来也成果显著，王志辉等[22]提出融合场景理解的A*算法，极大提高了动态环境的构建效率，实现无碰撞轨迹规划。赵宁哲[23]提出基于深度强化学习的轨迹规划方法，借助深度学习思想改善算法规划速度、提高轨迹平滑性。

在钻锚工艺中，钻杆、锚杆和药卷的形状均为杆件，需要机械手在受限空间内抓取物料沿着规划轨迹搬移至装卸目标处。现有的机械臂避障轨迹优化方法多数是将末端物料视为一个点，对抓取不规则物料进行避障优化的研究甚少。因此，深入研究复杂受限空间机械臂最优轨迹规划问题，是研发钻锚机器人亟待破解的关键技术难题。

(4)多机协同控制技术研究现状。多机系统的协同控制主要研究如何设计分布式协同控制算法使各设备达到期望的行为模式。而复杂任务分配作为多机协同控制的前提，其策略的优劣会对任务执行效果产生直接的影响。早期任务分配方法多以集中式分配为主，基于运筹学的匈牙利算法、单纯形法等传统方法被广泛应用。当任务规模和机械臂数量不断扩大，遗传算法、蚁群算法等进化算法充分发挥了启发式算法的优势。ZHENG T X等[24]提出了一种基于蚁群算法的集中式、离线优化策略，利用2种信息素记录任务分配的倾向性和任务处理顺序，从而实现任务优化分配和调度。JOSE K面对复杂任务分配的组合优化问题时，在遗传算法中加入了2种贪婪策略，提高全局搜索能力[25]。集中式任务分配中，中小规模的分配问题可通过枚举得到全局最优，其最优解的获取大多以牺牲机器人的自主性为代价。然而，井下多机械臂与多钻机协同支护工艺是一个组合优化问题，计算复杂度随机械臂与钻机数量呈指数型增长，因此集中式分配不利于解决大规模任务分配。此外，这类方法普遍适用于机器人和环境均保持不变的情况，由于任务分配通常是一个动态的决策过程，因此选用分布式任务分配方法，依靠各机械臂与钻机自身传感器规划其行为，对动态变化环境适应性更强，反应速度更快。TAKATA S等[26]对混合装配系统中的人机任务分配问题，提出了利用多目标优化的方法，以最小预期生产成本为核心目标，获得最优的任务分配方案。CHEN F等 [27]提出了一种基于遗传算法的时刻考核任务分配算法，以平衡装配时间成本和支付成本为目标，提出了一种描述离散时间系统的数学方法，结合任务分配方法进行分配。MALIK A A等 [28]提出了以复杂性任务分类方法解决复杂装配过程中的任务分配问题。王然然等[29]以分布式合同网拍卖算法为基础，构建任务拍卖架构与拍卖收益函数，结合模拟退火算法协调任务执行次序，制定任务分配策略。上述策略均需要利用一定的先验知识来完成，而强化学习、神经网络等智能任务分配理论减少了对先验知识的依赖，因此得到了快速发展与广泛应用。DAI X等[30]在合同网算法中加入BP神经网络，用于融合多机器人拍卖时的竞标价格，提升动态任务分配的快速性和实时性。KAWANO H[31]采用分层强化学习巧妙解决了维度爆炸问题。

对钻锚设备多机协同控制策略的研究类同于对多智能体协同控制问题的研究。LOWE R等 [32]提出了一种自适应Actor-Critic方法，该方法考虑了其他智能体的行动策略，并能够成功学习复杂的多主体协调策略。FOERSTER J N等[33]利用COMA算法来评估多个智能体的预测动作。SCHUITEMA E [34]利用全局状态信息来指导独立智能体学习自身的动作。MATIGNON L等[35]提出一种半分布式的多智能体学习方法来控制分布式的微机械手。若智能体之间存在异构性，且任务权重动态变化时，学者们应用图神经网络(Graph Neural Network，GNNs)或注意力机制来学习机器人控制中深度强化学习策略，探索多智能体之间的关联。WANG T等[36]提出了NerveNet方法，其中每个智能体都会收集其邻居的状态信息来进行协同学习。JIANG J等[37]应用注意机制来决定智能体是否应该在其可观测领域与其他智能体进行沟通。HOSHEN Y[38]使用注意机制来模拟相互作用的位置。陈亮名[39]给出分布式多机协作系统运动的数学模型，即领航者的任务分配是通过分布式的相对位置来描述的，跟随者同样需要分布到由领航者围成的凸包内。在这种分布式建模方式下，每个领航者无需用到外界提供的期望运动轨迹，而只需确定与邻居的期望相对位置，这种建模方式更加符合实际工程的需求。

由此可见，针对多机协同控制问题大多研究面向的环境条件较好、任务比较单一，且控制目标相对固定。然而，井下环境复杂，钻锚任务繁重，钻锚机器人及其机械臂与钻机位姿不断变化，现有的协同控制方法不能适应。因此，深入研究钻锚机器人多机械臂与多钻机并行协同控制问题，是研发钻锚机器人亟待破解的关键技术难题。

综上所述，近年来随着在智能永久支护方面的研究不断深入，自动化钻锚技术取得了重要的创新性成果，对于提升智能钻锚技术发挥了重要的促进作用。然而，由于煤矿巷道地质条件复杂、作业空间有限、钻锚任务繁重、操控过程复杂，智能钻锚仍面临严峻挑战。剖析自动化、智能化钻锚技术及其类似技术的研究进展，具有多机械臂多钻机的钻锚机器人将成为重要的发展方向。因此，破解有限时空多机械臂与多自动钻机布局优化、面向装卸任务的机械臂姿态控制、复杂受限空间机械臂最优轨迹规划和多机械臂多钻机智能协同控制四大关键技术瓶颈，成功研发高性能、高可靠、高效率的多机械臂多自动钻机协作的煤矿巷道钻锚机器人迫在眉睫。

1 钻锚机器人有限时空布局优化技术

钻锚机器人上钻机与机械臂的数量和布局直接影响煤矿巷道支护效率。在作业空间结构复杂、支护时间受限以及支护工艺流程的约束下，科学、合理的优化机械臂与钻机的布局是实现钻锚智能协作系统的前提。

1.1 钻锚机器人功能元结构划分

钻锚机器人功能元结构如图1所示，包括钻锚移动平台、自动钻机、机械臂、物料库4个部分。其中，移动平台为钻锚机器人的基础框架。自动钻机具有自主定位，自动钻锚的功能。机械臂则具有精准定位、抓取与布放物料姿态控制、自主规划防碰撞最优轨迹的功能，能实现自适应抓取、装卸不同物料，满足钻锚机器人对智能、高效运输物料的需求。物料库用于存放钻杆、锚杆和药卷等。

对于钻锚设备来讲，煤矿巷道地质条件不同，对钻孔数量的要求也不同。因此，在钻锚机器人机械臂与钻机的布局设计时，一方面，要考虑钻锚平台复杂的空间结构约束以及实现与掘进平行作业的时间约束；另一方面，还要确保放置的机械臂和外围设备能够满足任务的可达空间和工艺性能。

1.2 有限时空约束下多钻机多机械臂数量最优解

在钻锚任务的约束下，钻锚机器人中钻机以及机械臂的设计要在满足支护工艺顺序的前提下，尽可能在同一时间内完成多个任务。合理配置钻机和机械臂，在减少钻锚工作人员数量的同时实现支护与截割的并行作业，提高支护效率。根据时间分布、空间分布、支护逻辑顺序等约束条件，钻锚机器人物理模型示意如图2所示(其中，L为钻锚平台的宽度；H为钻锚平台的高度；H1、H2、H3分别为锚杆库、钻机、机械臂的高度；Lz为平台上钻机导轨的长度；Rb为机械臂的工作半径；Rz为钻机的工作半径；M为物料库的宽度)。结合钻机与钻机之间、钻机与机械臂之间的相互配合关系，转化成为数学模型来进行深入的计算分析，获得钻锚平台满足多任务约束条件时各类钻机以及机械臂分布的最佳布置。

自动钻锚机构主要由自动钻机和钻机水平滑移机构组成，钻机水平滑移机构由滑动导轨和液压缸组成。自动钻机可在滑动导轨上左右移动，钻机具有上下滑移、左右摆动、前后调节等多个自由度，实现其位姿的调整。机械臂安装在水平滑移机构上，滑移机构由滑动导轨和液压缸组成，实现机械臂前后移动。平台两侧分别装有物料库，用于存放锚杆组件和药卷。

根据钻锚机器人本体以及钻机工作空间的约束条件，可得到单排导轨中可放置的最大钻机数Nk为

为了实现截割与钻锚并行作业，对2者的时间关系进行分析。影响截割时间的因素主要有截割深度、掘进机进给速度和巷道截面的尺寸等，截割一个截面时间Tj可表示为

式中，λ为调整系数；b为锚杆的排距；S为巷道截面积；vf为掘进机进给速度；vd为截割速度；n为截割次数；h为每次截割深度；Tf为井下巷道修形时间。

根据钻锚任务要求，同一截面顶孔数为A，侧孔数为B，总钻孔数为A+2B，而支护1个孔需要的时间为T1，那么支护1个截面需要的时间Tz为Ceil[(A+2B)/Nk]个钻时。当截割与支护时间差最小时，钻机最优个数为Ns，故存在等式：

其中，Ceil为进位取整函数，其作用是将计算得到的数值向上取整数。通过式(3)中函数计算得到的钻机个数Ns，满足掘锚并行时间约束。由此可确定钻锚机器人当中钻机放置的排数Pz为

确定钻锚机器人中机械臂的个数时，首先从钻锚机器人本体空间条件出发，判断平台当中最多可放置的机械臂个数Jk为

考虑空间条件的同时，还需着重分析机械臂与钻机之间的干涉问题，2者在运动过程中互不干涉是实现协同作业的前提。采用机械臂与钻机之间的欧氏距离D来判断2者是否存在干涉情况[40]：

式中，Dd为机械臂与顶钻之间的欧氏距离；Dc为机械臂与侧钻之间的欧氏距离；(Xbk,Ybk)为第k机械臂的坐标；(Xzj,Yzj)为第j个钻机的坐标。

对欧式距离进行归一化处理，可得

当式(7)中D1、D2都为1时表明机械臂的位置分布合理，不会与钻机之间存在运动干涉情况，从而确定了机械臂最佳个数。

1.3 复杂空间多钻机多机械臂最优位置分析

由于钻机位置受钻孔位置的约束，一般安装在与钻锚机器人前进方向垂直的两侧导轨上，而机械臂的位置相对灵活。通过分析机械臂可操作度指标，从而能够获得其在平台的分布范围。可操作度指标的物理意义可解释为机器人各个方向上运动能力的综合度量，反映机械臂运动的灵活性。YOSHIKAWA T定义可操作度指标μ[41]为

其中，q为关节矢量;γm为机械臂雅可比矩阵J(q)的特征值。当机械臂处于奇异位置时，其雅可比矩阵不存在，可操作度指标μ=0。为了统一指标的量纲，定义机械臂工作空间中全局相对可操作度ω，并对操作度指标进行归一化处理。

其中，μi为机械臂工作空间中一点Pi的操作性指标；μmaxi为操作性指标的最大值，当μi=1时表示机械臂在此处灵活性最差，μi=0时表示机械臂在此处灵活性最好。在分析机械臂可达工作空间的基础上，结合末端执行器夹持长物件与其他设备的干涉、移动中发生自碰撞的约束条件对可操作指标进行整合，引入钻锚机器人布局优化分析的约束条件为

其中，

为雅可比矩阵修正式；f(q,τ)为修正函数；τ为机械臂运动速度限制；Xv为机械臂位移矢量；Δh为关节变化量；

为观测器采样周期；Zi为关节速度矢量。机械臂在夹持长钻杆、锚杆进行移动时，由于钻锚平台空间有限，因此对于机械臂各个转动关节要进行进一步限制。

式中，θ为关节角度；(θ-，θ+)为关节角活动范围。

结合约束条件计算雅可比矩阵以及机械臂的全局可操作度指标，在趋近于1的等值线部分是机械臂的最优放置范围。由1.2节得知工作平台中机械臂的最佳个数。根据各机械臂构型参数，求解可达工作空间以及相关雅可比矩阵，计算机械臂的可操作度指标；运用灵活性分析以及归一化处理的方法求解全局相对可操作度指标；再结合末端执行器约束条件可得出平台中的最优放置范围。在此基础上依据各机械臂之间的欧式距离来判断各机械臂之间是否存在干涉，若存在干涉，则需要重新修正机械臂的构型参数，若不存在干涉，则该分布即为多机械臂的最佳位置分布。

图3为求解多机械臂最佳位置分布的原理。

2 机械臂姿态智能控制技术

根据钻锚机器人钻锚作业特征，钻锚机器人机械臂需完成钻杆、锚杆和药卷等物料的抓取、运输与装卸任务。因此，研究准确识别、定位物料及稳定抓取与装卸的机械臂姿态控制等关键问题，成为钻锚机器人智能控制的重要内容。

2.1 目标物料定位与自适应抓取力控制方法研究

为实现机械臂准确抓取物料，首先要对目标物料进行精确识别，其次基于目标物料信息进行定位信息解算。另外，针对不同物料特征，机械臂需要根据反馈力的变化精确控制末端抓取力。

2.1.1 基于深度学习的机械臂抓取定位方法

由于物料具备不同的外形特征，考虑此类杆件在夹持过程中稳定性，需针对不同的物料设计相应的夹持点，因此在夹持过程中如何在物料上准确定位合适的夹持点位置，是抓取过程中应当首要考虑的问题。

通过在末端执行器上安装相机，构建手眼系统(即Eye-in-Hand系统)[42]，机械臂运动至物料附近进行抓取或装卸时，采集目标物料图像，通过提取目标物料边缘特征，结合目标物料几何特征，求解基于物料图像深度学习的目标物料抓取位置定位信息，其算法原理如图4所示。

建立基于轻量级卷积神经网络(SqueezeNet网络)[43]的目标物料动态图像识别优化模型，优化SqueezeNet网络学习速度，提升长杆件目标物料等的识别速度，降低计算量和训练复杂度，提高长杆件目标物料的识别效率和精度。通过视觉系统采集物料的图像并输入优化SqueezeNet网络进行识别，解算出预设夹持点为特征和位置信息，结合视觉与机械臂末端坐标转换关系，获取机械臂抓取位置。

2.1.2 机械手抓取力自适应控制方法

钻锚机器人钻锚作业中主要物料包括钻杆、锚杆和药卷。其中，钻杆和锚杆是刚性长杆件，而药卷相对较短且质地柔软易破损。因此，在夹取过程中末端执行器夹持力的控制是有效抓取关键。

机械臂末端在夹持过程中获得物料受力的反馈，结合模糊PID控制原理对输出的夹持力进行自适应调整，以满足夹持物料稳定、准确、不破损的要求。其控制原理如图5所示。

机械臂在完成任务过程中外界扰动较多，特别是在装卸过程中可能会发生的细微碰撞，会对末端执行器的夹持造成影响。因此，为保证末端夹持器在完成各物料夹持需求的情况下进行动态及时的调整，采用优化模糊PID控制方法，提高了其算法自适应性，且实现不同目标不同任务下的模糊PID控制决策，从而对连续不同目标夹持力精确控制。末端执行器的夹持力应根据机械手指端力传感器反馈进行对应的调整，计算机在得到反馈力Ff后生成相应的夹持力目标值Fm，通过比较实际夹持力和目标值得到当下误差信号E，即偏差E=ΔF=Ff-Fm。此时偏差E作为模糊控制器的观测量，Fm为控制量。在接口部分进行输入参量的模糊化，根据偏差E的变化范围确定夹持力变化的模糊表，设定相应的模糊控制规则表，进而得出相应的模糊关系R，形成模糊决策U，即

经过模糊决策处理输出的模糊量为X0Z0Y0，在输出接口去模糊化后得到精确的控制量交由末端执行器控制夹持力输出，再经过力反馈传感器进行夹持力目标值的调整。

2.2 机械臂位姿控制策略

机械臂在进行抓取、装卸过程中，当机械臂到达任务点附近时，需根据不同任务需求调整位姿，但相同任务的位姿轨迹相同，因此，通过强化训练使机械臂当前位姿逼近最终位姿，借助得到的训练模型来实现机械臂位姿的精确控制，最终完成相应的任务。

首先，建立机械臂各个关节坐标系，如图6所示；其次，建立末端执行器在机械臂空间基坐标系(图6 X0Z0Y0)上的位置P坐标矩阵，如式(13)；最后，建立以末端执行器P点为坐标系原点的坐标系(XiZiYi)与机械臂空间基坐标系关系矩阵PR，如式(14)。

经过正运动学分析，建立机械臂基座与末端执行器之间关系模型，即

其中，

为机械臂第i连杆与第i-1连杆间的变换矩阵，也是机械臂各个关节的位姿变换情况。当机械臂执行抓取或装卸钻锚物料时，末端执行器的位姿通过逆运动学求解得到一系列关节角的解θi，即此时机械臂各个关节的位姿。

因机械臂在进行位姿调整过程中运动距离短、运动空间固定，构建基于小线段插补算法进行位姿控制[44]。当钻锚机器人机械臂执行物料运输和装卸任务时，其到达指定点后位姿初始点和最终位姿点为两线段端点，可以求得最短直线线段作为规划轨迹。分析机械臂不同组合关节角变化对于末端位姿的影响情况，设定相应的插补算法来保证机械臂末端沿预定的轨迹直线行进，基于小线段插补的机械臂末端轨迹原理如图7所示。

结合钻锚机器人机械臂空间坐标位置、最优抓取与轨迹控制，以钻锚机器人机械臂最优控制策略为目标，构建基于强化学习[45]的机械臂位姿最优控制策略求解模型，其控制原理如图8所示。

机械臂在逼近最终位姿的过程中存在多个解，不同时刻选择调整不同的关节角都会对逼近的过程产生影响，即不同控制策略效果不同。采用优化确定性策略强化学习，能够满足在有限确定性策略下实现机械臂逼近策略的强化学习，同时降低了强化学习对采用大样本数据的依赖，提高了学习的效率。因此，以解算机械臂优化位姿策略为目标，构建基于确定性策略强化学习的机械臂优化位姿策略模型，通过强化学习模型中的双Critic网络进行控制策略迭代，结合当前时刻机械臂的控制行为和环境状态数据的变化情况对控制策略进行寻优。用ai表示i时刻下机械臂的动作内容，用ei表示该动作对环境造成的影响，也就是机械臂对最终位姿的逼进情况。ri表示i时刻在ei环境下机械臂动作(ai)执行后得到的反馈值(奖惩值)，同时为了改善算法的稳定性，通过增加扰动值Fi使得动作的选择具有随机性。强化学习模型中的Actor网络设定某时刻机械臂逼近过程中下一步的动作，而Critic网络则对所选取的动作输出反馈值，给出评价，对机械臂的控制策略进行修正，不断改善策略网络最终形成最优策略。

3 复杂受限空间机械臂最优轨迹规划

钻锚机器人的工作空间受限于井下巷道空间，同时在工作过程中，工作空间内的环境复杂多变。因此，要求轨迹规划过程中要明确工作空间环境信息和机械臂可行域信息作为规划依据，并且规划路径必须具备实时碰撞检测和动态规划能力，以应对动态变化的工作环境。

3.1 钻锚机器人工作空间建模

钻锚机器人由多个机械本体组成，其结构复杂，种类各异。对于机械臂来讲，其所处环境障碍较多且动态变化，机械臂在受限空间中进行轨迹规划需要考虑动态障碍的实时变化和可行工作空间的求解。因此，需要对钻锚机器人系统结构进行数字化描述，创建机械臂、钻机、锚杆、钻杆和锚索等构成的环境地图，并采用三维栅格图对其进行描述，如图9所示。其中，除钻机和机械臂外其他结构可视为静态障碍，通过对钻机和机械臂位姿信息采集，构建环境地图实时更新模型，对机械臂作业环境进行实时更新，为机械臂轨迹规划提供机械臂和任务的位置、障碍物分布等环境信息。

3.2 机械臂可行域构建

机械臂在受限空间作业时，不仅要考虑巷道空间约束，还需要考虑钻锚机器人结构限制及末端抓取物料结构的特殊性。当多机械臂协同作业时，机械臂工作空间是动态变化的。因此，在对机械臂进行轨迹规划前，首先要对机械臂可行工作空间进行求解。建立钻锚机器人工作空间求解模型，研究基于环境模型的机械臂工作空间求解方法，建立机械臂与作业环境约束模型，构建机械臂可行域求解模型，研究机械臂可行域更新方法，为机械臂轨迹规划提供数据支撑，具体模型如图10所示。

3.3 机械臂防碰撞最优轨迹规划

机械臂作为钻锚机器人的主要运动设备，优化机械臂运行轨迹就是缩短整个钻锚作业的时间。分析机械臂的可行域和任务特点，采用基于包围盒的实时碰撞检测方法，建立机械臂末端的几何模型，在轨迹优化规划算法中添加实时检测碰撞信息单元，能够满足运动轨迹避障要求。当轨迹规划模块收到规划指令时，可行域求解模块输出当前可行域的环境信息，随后利用蚁群算法与人工势场法结合的方式，针对任务内容进行路径规划，人工势场法为蚁群算法的搜索过程提供增益，提高规划路径的速度。规划过程中的实时进行碰撞检测，确保拓展的路径不会发生碰撞，新的路径点纳入轨迹后，将继续信息素的迭代扩展，直到路径规划完成。当所有的规划轨迹记录后，通过寻优参数筛选得到最优轨迹，将最优轨迹上传至控制模块，同时更新环境信息，准备下一次轨迹规划。具体原理如图11所示。

4 多机协同控制技术

煤矿井下钻锚支护任务量大，且工艺流程具有严格的顺序性，智能钻锚机器人通过借助本身智能设备的协作实现多项钻锚任务并行的目标，进而极大的提高支护效率。其中多项任务分配的策略和智能控制算法是多机协同控制技术的关键所在。

4.1 多任务分配策略

钻锚支护作业由于任务繁重，在巷道掘进过程中占用大量时间，为满足钻锚与截割并行的要求，在任务分配方面同样需要针对时间进行优化，对此提出了一种基于以时间最优为目标的多任务分配策略。具体流程如图12所示。

针对钻锚机器人钻锚任务多且类型不同的特点，在作业开始前对钻锚任务进行分解，可分为钻机任务和机械臂任务，包括钻机钻孔、上锚杆、机械臂装卸钻杆、安装药卷和锚杆等任务。为各项任务赋予任务特性，并结合权重设定优先级，初始化各设备状态值，将以上信息整合上传至钻锚数据库。分配过程首先检测任务进程，从任务进程库中提取出待执行的任务及其附加信息，结合时间最优的匹配原则，从可用设备中筛选设备进行工作，完成一次任务分配后更新钻锚数据库，并进行下一次任务分配，过程中借助任务进程库实时监测和记录作业进程，直到钻锚任务完成。

4.2 钻锚机器人多机多任务智能协同控制策略

钻锚机器人各机械臂与自动钻机的作业任务既相互约束又相互协同。钻锚机器人多机协作动作包括机械臂物料抓取控制模型、装卸钻杆控制模型、安装药卷控制模型、安装锚杆控制模型、末端抓取力控制模型以及防碰撞最优轨迹跟踪控制模型。钻锚机器人控制系统包括钻锚工艺驱动模型、多机多任务分配模型和碰撞检测模型。根据钻锚工艺的要求，求解多机多任务分配模型得到各机械臂与钻机作业任务的优先级，计算全局策略收益并调用动作库中相应控制模型执行策略。

利用强化学习过程计算钻锚机器人效益，建立奖惩机制并感知环境信息以及机械臂的运动状态从而改变控制策略，同时反馈一定的奖惩给钻锚机器人的控制系统进一步影响感知决策过程，借助形成的环境状态进行决策训练。煤矿钻锚机器人智能协同控制系统框架如图13所示。

5 结语

(1)针对钻锚机器人多机械臂与多钻机的最优布局问题，建立了基于时空约束的最优配置模型，得出了复杂空间下机械臂与钻机最优配置，能够实现可达空间和可操作性指标下钻锚机器人的最优空间布局。

(2)针对钻锚机器人机械臂姿态控制问题，提出了基于SqueezeNet网络深度学习的机械臂抓取定位方法，能够实现抓取点在物料上的准确识别和定位；提出了基于模糊控制的抓取力自适应控制方法，能够实现机械臂面向多种物料的稳定夹持；提出了基于最小线段插补算法的机械臂姿态规划方法，能够实现有限空间条件下的机械臂小范围位姿规划；提出了基于强化学习的机械臂姿态控制策略，实现了钻锚机器人机械臂最优姿态控制。

(3)针对钻锚机器人避障轨迹规划问题，构建了钻锚机器人工作空间模型，能够实现工作环境信息汇总及实时更新；提出了机械臂可行域求解模型，实现了机械臂可行域在多种约束下的实时求解；提出多种混合算法结合的机械臂最优轨迹规划方法，实现了机械臂实时碰撞检测和最优轨迹规划。

(4)针对钻锚机器人多机械臂与多自动钻机并行协同控制问题，建立了钻锚工艺驱动模型和基于时间最优的多机多任务分配模型，通过机械臂可行域更新模型和奖惩机制对控制策略进行迭代更新，结合任务分配模型和收益评价模型，提出了一种基于智能学习算法的钻锚机器人协同控制方法，能够实现钻锚机器人多机械臂多自动钻机系统的智能协同控制和并行作业。

[1] JAMES A T.Facility planning[M].3rd ed.New Jersey：John Wiley &Sons，2007：215.

[2] 李航.电动汽车生产线布局与作业调度优化方法研究[D].上海:上海交通大学,2020.

LI Hang.Research on the optimization method of electric vehicle production line layout and operation scheduling[D].Shanghai:Shanghai Jiao Tong University,2020.

[3] 席万强.多机器人协调系统的构建与控制研究[D].南京:南京航空航天大学,2019.

XI Wanqiang.Research onconstruction and control of coordinated multi-robots system[D].Nanjing:Nanjing University of Aeronautics and Astronautics,2019.

[4] GADALETA M，BERSELLI G，PELLICCIARI M.Energy-optimal la-yout design of robotic work cells：Potential assessment on an industrial case study[J].Robotics &Computer Integrated Manufacturing，2017,47:102-111.

[5] 项彬彬,陈卫东,亓利伟,等.基于遗传算法的机器人作业单元布局优化[J].上海交通大学学报,2008,42(10):1697-1701.

XIANG Binbin,CHEN Weidong,QI Liwei,et al.Robot workcell layout optimization based on genetic algorithm[J].Journal of Shanghai Jiao Tong University,2008,42(10):1697-1701.

[6] LIM Z Y,PONNAMBALAM S G，IZUI K.Nature inspired algorithms to optimize robot workcell layouts[J].Applied Soft Computing，2016,49:570-589.

[7] 谢文雅.基于四元数的工业机器人姿态规划与插补算法的研究[D].武汉：华中科技大学,2017.

XIE Wenya.Research of the orientation planning and interpolation for industrial robots based on quaternion[D].Wuhan：Huazhong University of Science and Technology,2017.

[8] 王效杰.基于四元数样条曲线的姿态轨迹规划研究[D].绵阳：西南科技大学,2015.

WANG Xiaojie.Research on orientation trajectory planning based on quaternion spline curve[D].Mianyang：Southwest University of Science and Technology,2015.

[9] YANG Y，LIN L L，SONG Y T，et al.Fast programming of peg-in-hole actions by human demonstration[C]//International Conference on Mechatronics and Control.IEEE，2014：990-995.

[10] LITVAK Y，BIESS A，BAR-HILLEL A.Learning pose estimation for high-precision robotic assembly using simulated depth images[C]//International Conference on Robotics and Automation.IEEE，2019：3521-3527.

[11] WYK K V，CULLETON M，FALCO J，et al.Comparative peg-in-

hole testing of a force-based manipulation controlled robotic hand[J].IEEE Transactions on Robotics，2018，34(2)：542-549.

[12] SONG H C，KIM Y L，LEE D H，et al.Electric connector assem-bly based on vision and impedance control using cable connector-feeding system[J].Journal of Mechanical Science and Technology，2017，31(12)：5997-6003.

[13] KHATIB O.Real-time obstacle avoidance for manipulators and

mobile robots[M].New York：Springer，1986.

[14] 陈满意,张桥,张弓，等.多障碍环境下机械臂避障路径规划[J].计算机集成制造系统,2021,27(4):990-998.

CHEN Manyi,ZHANG Qiao,ZHANG Gong,et al.Obstacle avoidance path planning of manipulator in multiple obstacle environment[J].Computer Integrated Manufacturing Systems,2021,27(4):990-998.

[15] 陈劲峰,黄卫华,章政，等.动态环境下基于改进人工势场法的路径规划算法[J].组合机床与自动化加工技术,2020(12):6-9,14.

CHEN Jinfeng,HUANG Weihua,ZHANG Zheng,et al.Path planning algorithm based on improved artificial potential field method in a dynamic environment[J].Modual Machine Tool &Automatic Manufacturing Technique,2020(12):6-9,14.

[16] 郭彤颖,刘雍,李宁宁，等.势场力引导的蚁群算法在室内轨迹规划中的应用[J].组合机床与自动化加工技术,2020(6):18-20,26.

GUO Tongying,LIU Yong,LI Ningning,et al.Application of ant colony algorithm guided by potential field force in indoor trajectory planning[J].Modual Machine Tool &Automatic Manufacturing Technique,2020(6):18-20,26.

[17] 史亚飞,张力,刘子煊，等.基于速度场的人工势场法机械臂动态避障研究[J].机械传动,2020,44(4):38-44.

SHI Yafei,ZHANG Li,LIU Zixuan,et al.Research of dynamic obstacle avoidance of manipulator based on artificial potential field method of velocity field[J].Mechanical Transmission,2020,44(4):38-44.

[18] 朱瑞明,李启光,马飞，等.长作业杆复杂环境下自寻优避障规划方法研究[J].组合机床与自动化加工技术,2022(1):1-5.

ZHU Ruiming,LI Qiguang,MA Fei,et al.Obstacle avoidance planning algorithm based on self-optimization in complex environment of long working rod[J].Modual Machine Tool &Automatic Manufacturing Technique,2022(1):1-5.

[19] KEW J C,ICHTER B,BANDARI M，et al.Neuralcollision clear-

ance estimator for fast robot motion planning[EB/OL].[2023-01-11].https://www.researchgate.net/publication/336551535.

[20] TOUSSAINT M,HA J S,DRIESS D.Describing physics for phy-

sical reasoning:Force-based sequential manipulation planning[J].IEEE Robotics and Automation Letters，2020,5(4):6209-6216.

[21] OVERMARS M H,JUR P.Roadmap-based motion planning in

dynamic environments[J].IEEE Transactions on Robotics，2005,21(5):885-897.

[22] 王志辉，陈息坤.融合场景理解与A*算法的巡检机器人避障设计[J].无线电工程,2022,52(11):2000-2008.

WANG Zhihui,CHEN Xikun.Obstacle avoidance design of inspection robot based on scene understanding and A* algorithm[J].Radio Engineering,2022,52(11):2000-2008.

[23] 赵宁哲.基于深度强化学习的多辅助机器人路径规划研究[D].沈阳：沈阳工业大学,2022.

ZHAO Ningzhe.Research on path planning of multi-assisted robot based on deep reinforcement learning[D].Shenyang：Shenyang University of Technology,2022.

[24] ZHENG T X,YANG L Y.Optimal ant colony algorithm based mu-lti-robot task allocation and processing sequence scheduling[C]//7th World Congress on Intelligent Control and Automation.IEEE,2008:56693-56698.

[25] JOSE K,PRATIHAR D K.Task allocation and collision-free path planning of centralized multi-robots system for industrial plant inspecti-on using heuristic methods[J].Robotics and Autonomous Systems,2016,80:34-42.

[26] TAKATA S,HIRANO T.Human and robot allocation method for

hybrid assemblysystems[J].CIRP Annals-Manufacturing Technology，2011,60(1):9-12.

[27] CHEN F,SEKIYAMA K,CANNELLA F，et al.Optimal subtask allocation for human and robot collaboration within hybrid assembly system[J].IEEE Transactions on Automation Science and Engineering，2014,11(4):1065-1075.

[28] MALIK A A,BILBERG A.Complexity-based task allocation in

human-robot collaborative assembly[J].Industrial Robot，2019,46(4):471-480.

[29] 王然然,魏文领,杨铭超,等.考虑协同航路规划的多无人机任务分配[J].航空学报,2020,41(S2):24-35.

WANG Ranran,WEI Wenling,YANG Mingchao,et al.Task allocation ofmultiple UVAs considering cooperative route planning[J].Acta Aeronautica et Astronautica Sinica,2020,41(S2):24-35.

[30] DAI X,WANG J,ZHAO J.Research on multi-robot task allocation based on BP neural network optimized by genetic algorithm[C]//2018 5th International Conference on Information Science and Control Engineering(ICISCE).IEEE,2018:478-481.

[31] KAWANO H.Hierarchical sub-task decomposition for reinforcem-

ent learning of multi-robot delivery mission[C]//International Conference onRobotics and Automation.IEEE,2013:828-835.

[32] LOWE R,WU Y,TAMAR A，et al.Multi-agent actor-critic for

mixed cooperative competitive environments[C]//Proceedings of the 31st International Conference on Neural Information Processing Systems.Red Hook，NY，USA:Curran Associates Inc,2017：6382-6393.

[33] FOERSTER J N,FARQUHAR G,AFOURAS T,et al.Counterfac-

tual multi-agent policy gradients[C]//Proceedings of the AAAI Conference on Artificial Intelligence.California USA:AAAI,2018：2974-2982.

[34] SCHUITEMA E.Reinforcement learning on autonomous humanoid robots[D].Delft:Delft University of Technology,2012.

[35] MATIGNON L，LAURENT G J.Design of semi-decentralized con-

trol laws for distributed-air-jet micromanipulators by reinforcement learning[C]//International Conference on Intelligent Robots and Systems.IEEE/RSJ，2009：3277-3283.

[36] WANG T,LIAO R,BA J,et al.Nervenet：Learning structured po-

licy with graph neural networks[C]//International Conference on Learning Representations.IEEE/RSJ,2018.

[37] JIANG J,LU Z Q.Learning attentional communication for multi-agent cooperation [EB/OL].[2023-01-11].https://proceedings.neurips.cc/paper/2018/hash/6a8018b3a00b69c008601b

8becae392b-Abstract.html.

[38] HOSHEN Y.VAIN:Attentional multi-agent predictive modeling[C]//

Proceedings of the 31st International Conference on Neural Information Processing Systems.Long Beach California USA:Curran Associates Inc.,2017：2698-2708.

[39] 陈亮名.考虑约束的多智能体Euler-Lagrange系统编队-包含控制[D].哈尔滨：哈尔滨工业大学,2019.

CHEN Liangming.Consider the constrained multi-agent Euler-Lagrange system formation-containing control [D].Harbin:Harbin Institute of Technology,2019.

[40] 马宏伟,王鹏,王世斌,等.煤矿掘进机器人系统智能并行协同控制方法[J].煤炭学报,2021,46(7):2057-2067.

MA Hongwei,WANG Peng,WANG Shibin,et al.Intelligent parallel cooperative control method of coal mine excavation robot system[J].Journal of China Coal Society，2021，46(7):2057-2067.

[41] YOSHIKAWA T.Manipulability of robotic mechanisms[J].International Journal of Robotics Research,1985,4(2):3-9.

[42] 谢宇珅,吴青聪,陈柏,等.基于单目视觉的移动机械臂抓取作业方法研究[J].机电工程,2019,36(1):71-76.

XIE Yushen,WU Qingcong,CHEN Bai,et al.Grasping operation method of mobile manipulator based on monocular vision[J].Journal of Mechanical &Electrical Engineering,2019,36(1) :71-76.

[43] 白又达,刘纪平,黄龙,等.面向地图图片识别的两种卷积神经网络分析[J].测绘科学,2021,46(11):126-134.

BAI Youda,LIU Jiping,HUANG Long,et al.Analysis of two convolutional neural networks for map image recognition[J].Science of Surveying and Mapping,2021,46(11)：126-134.

[44] 游文辉,王秀锋,鲁文其，等.工业机械臂的轨迹规划插补系统设计[J].机电工程,2019,36(2):190-196.

YOU Wenhui,WANG Xiufeng,LU Wenqi,et al.Trajectory interpolation system for industrial manipulator[J].Journal of Mechanical &Electrical Engineering,2019,36(2)：190-196.

[45] 范振,陈乃建,董春超,等.基于深度强化学习的单臂机器人末端姿态控制[J].济南大学学报(自然科学版),2022,36(5):616-625，634.

FAN Zhen,CHEN Naijian,DONG Chunchao,et al.End pose control of a single-arm robot based on deep reinforcement learning [J].Journal of University of Jinan (Science and Technology),2022,36(5):616-625,634.

[46] 胡占义,吴福朝.基于主动视觉摄像机标定方法[J].计算机学报,2002,25(11):1149-1156.

HU Zhanyi,WU Fuchao.Based on the active visual camera calibration method [J] .Chinese Journal of Computers,2002,25(11):1149-1156.

[47] 张文安,梁先鹏,仇翔,等.基于激光与RGB-D相机的异构多机器人协作定位[J].浙江工业大学学报,2019,47(1):63-69.

ZHANG Wenan,LIANG Xianpeng,QIU Xiang,et al.Heterogeneous multi-robot cooperative positioning based on laser and RGB-D camera[J].Journal of Zhejiang University of Technology,2019,47(1):63-69.