文献学习-4-面向机器人手术的基于数据驱动控制的连续体腹腔镜器械跟踪控制方法

5.1.4 Automatic Tracking of Surgical Instruments with a Continuum Laparoscope Using Data-Driven Control in Robotic Surgery

Key Words: continuum laparoscope, data-driven control, keypoint detection, robotic surgery, visual feedback
Authors: Xiaowen Kong, Hangjie Mo, Erbao Dong, Yunhui Liu, and Dong Sun
Source: Advanced Intelligent Systems, 2023, 5(2): 2200188.
在这里插入图片描述

摘要: 在现有的手术过程中，外科医生需要手动调整腹腔镜，以在手术过程中提供更好的视野（FOV），这可能会分散外科医生的注意力并减慢手术过程。本文介绍了一种使用连续体腹腔镜通过追踪手术器械来调整FOV的数据驱动控制方法。首先，采用基于Koopman的系统识别方法来线性化非线性系统。使用平移的Chebyshev多项式构建观测函数，将低维观测转换为高维观测。使用有限维估计方法来近似Koopman算子。根据训练好的线性动态模型进一步开发出最优控制器。此外，设计了一种基于学习的姿态估计框架，用于检测手术器械上的关键点，并为控制系统提供视觉反馈。与其他检测方法相比，所提出的方案实现了更高的检测精度，并提供了更多可选的关键点进行追踪。仿真和实验验证了所提出的控制方法的可行性。实验结果表明，所提出的方法可以实时自动调整连续体腹腔镜的视野，并满足临床要求。

1. 研究背景
机器人辅助微创手术(RMIS)因其与传统开放手术相比的独特优势而受到越来越多的关注。在RMIS中，用于在屏幕上显示手术情景的腹腔镜由机器人手臂持有，而不是助手。在手术中，外科医生需要频繁调整腹腔镜，以提供适当的视野范围（FOV）。这个过程会分散外科医生在手术中的注意力，从而影响腹腔镜手术的进展。需要开发一种通过自动追踪手术器械来调整腹腔镜FOV的控制方法。

在使用机器人手臂操作刚性腹腔镜时，需要避免机器人手臂与其他手术器械的碰撞。在狭小的工作空间中使用机器人手臂操作刚性腹腔镜是困难的，导致刚性腹腔镜的FOV受限。由于其更高的灵活性和较小的工作空间要求，连续体操纵器在机器人手术应用中得到了广泛应用。最近，在RMIS中使用连续体操纵器进行自动FOV调整的视觉伺服。然而，由于其结构的机械柔顺性，连续体操纵器的动力学通常是高度非线性和高维的。这些特性给连续体操纵器的精确控制带来了挑战。现有方法通常基于物理假设简化连续体操纵器的建模，例如分段常曲率模型、伪刚体、准静态和简化几何模型。

近年来，数据驱动的控制方法，如神经网络和强化学习，已经显示出对控制连续体操纵器具具有巨大潜力。这些方法的优势在于从感知数据中导出的系统的输入-输出映射，而无需进行分析建模和复杂计算。在有足够的输入-输出数据的情况下，数据驱动模型可以描述系统在其整个操作范围内的行为。然而，这些方法通常需要许多调整参数和重复试验来建立准确的模型。其他问题包括低实时性能和计算复杂性。Koopman算子提供了一种基于其独特的线性结构建立连续操纵器动态模型的替代解决方案。Koopman算子将系统的非线性动态模型提升到一个无限维空间，并在新空间中演化状态函数，也称为观测函数。通过这种方式，非线性系统的动态模型可以轻松地以线性方式传播，仅依赖于输入-输出数据。因此，线性控制方法可以应用于具有高精度的连续体操纵器。

除了准确的系统识别，高精度视觉反馈的闭环控制也是必不可少的。腹腔镜手术器械追踪中的视觉反馈可以分为两种类型：标记方法和非标记方法。标记方法在器械上手动添加特征标记以便于检测。虽然这种方法可以快速定位目标，但由于手术过程中存在血液和气体，不确定性也存在。这种方法给外科医生提供了不良体验，并且追踪精度较低，因为标记通常位于器械的非关键部位。未标记的方法通常选择整个金属部分作为检测区域，然后使用深度学习算法将该区域作为目标检测任务进行检测。然而，这种方法需要外科医生专注于不同的手术的不同阶段需要在不同的操作点进行操作，而现有的方法通常不够灵活。例如，在手术中使用超声刀来切除组织，焦点应该是器械的尖端。剪刀用于夹持组织或针头，所以焦点应该是夹持器的中心。因此，未标记的方法导致了较不准确的视觉反馈。

这项研究专注于自主控制连续体腹腔镜以调整视野并将手术器械保持在视野中心。为了解决这个关键问题，提出了一种基于Koopman控制方案和基于学习的视觉反馈的自动手术器械追踪框架。如图1所示，这个框架可以分为两个部分。第一个部分是数据驱动的系统识别单元，它利用Koopman算子将非线性动力学系统转化为线性闭环控制。与基于Taylor方法不同，本方法引入了Chebyshev多项式来选择观测函数。Chebyshev多项式是一种全局逼近方法，依赖于系统状态的高阶导数，与现有方法相同。还分析了所提出方法的逼近误差。基于连续体腹腔镜的线性表示，进一步使用线性二次调节器控制器进行实时控制。第二个单元是视觉反馈和最优控制单元，为手术器械追踪任务提供控制反馈。在这个单元中，开发了一个深度关键点检测网络，用于预测手术器械上关键点的像素位置。与现有的物体检测方法不同，开发了一种姿态估计方法来检测手术器械上的关键点。姿态估计方法可以直接回归手术器械上关键点的像素坐标，而不是整个区域。这种方法可以提高关键点检测的精度，并有利于后续的控制任务。在下一个控制系统中，可以根据不同的手术阶段灵活选择所需的追踪点，并根据外科医生的要求设置不同手术器械的权重。
在这里插入图片描述
图1. 连续体腹腔镜自动追踪手术器械系统的框架。

2. 数据驱动的系统辨识和LQR控制设计
A. 初始化
算法1总结了使用数据驱动方法进行系统识别的过程。
在这里插入图片描述
B. 观测函数选择
算法2总结了非线性系统的最优控制过程。

C. 误差估计和过拟合
影响数据驱动建模方法的主要因素之一是过拟合。最小二乘法在训练过程中可以最小化 $L^2$ 范数误差，但很容易受到噪声和奇异性的影响。为了解决这个问题，应用了最小绝对收缩和选择算子（lasso），这是一种 $L^1$ 正则化方法。

3. 基于学习的关键点检测
在本节中，开发了一个基于学习的框架，用于在手术器械上检测和定位关键点，而不需要任何人工标记。然后关键点在图像平面上的像素位置被用作闭环控制中的反馈。如图2所示，考虑到手术器械的关节结构，选择了五个关键点，即：右夹子、左夹子、头部、杆和末端。
在这里插入图片描述
图2. 手术器械的关键点和骨架。a) 大号针驱动器。b) 抓取牵引器。

A. 网络架构
现有的姿态估计方法主要使用热图回归来检测关键点。然后使用分组方法将属于同一对象的关键点分组。或者，可以预先对每个对象进行分割，并进一步进行每个对象的关键点检测。热图回归有一些已知的缺点，如计算效率低、固有的量化误差和空间分辨率敏感性。

为了解决这个问题，提出了一个实时姿态估计框架，检测手术器械的关键点。小的边界框用于表示关键点区域，关键点位于区域的中心位置。架构的详细信息如下所述。在图3中，GhostNet被用作骨干网络来提取特征，通过使用更少的参数可以生成更多的特征。然后应用空间注意力bottleneck模块，为关键点提供丰富的空间信息。特征金字塔网络（FPN）和路径聚合网络（PAN）用于融合不同尺度的特征，可以融合低层次的空间信息和高层次的语义信息。Meta-ACON被用作激活函数。非最大抑制（NMS）被应用于获取候选关键点区域。在检测模块（将属于同一器械的关键点进行分组）之后，用关联嵌入进行关键点分组。分组过程通过将标签之间的L2距离较小的关键点进行分组，将无身份的关键点聚类。
在这里插入图片描述
图3. 所提出的用于手术器械关键点检测的姿态估计网络框架。

4. 仿真
为了验证在控制连续体腹腔镜调整视野的提议控制方法，使用Mujoco进行了一系列仿真实验，在仪器追踪任务中使用了仿真环境和物理引擎，Mujoco为机器人和生物力学提供了仿真环境和物理引擎。如图4a所示，首先建立了一个连续体腹腔镜模型。该模型由4个关节组成，模拟的连续体腹腔镜的尺寸与真实腹腔镜相同。图4b中的两个圆柱体代表手术器械。红色标记代表手术器械上的目标关键点。仿真环境中有一个固定的全局摄像头，用于监视连续体腹腔镜的追踪点位置和视野中心。

在这里插入图片描述
图4. 连续体腹腔镜追踪系统的仿真环境。a）仿真环境的全局视图。b）连续体腹腔镜的视野。

通过比较模拟性能来确定LQR控制器中的适当参数。然后分别通过追踪静止和移动中的手术器械，执行两种类型的模拟任务来评估性能。

A. 静态器械跟踪
首先，通过追踪单个静止的手术器械从不同的初始位置来评估所提出的方法。在所提出的控制方法下，连续体腹腔镜会自动移动，直到追踪点达到视野中心。腹腔镜视野中心在图像平面上的像素坐标为(200, 200)。如图6a所示，在图像平面的四个不同区域中，进行了多次重复试验，手术器械位于不同的初始位置。初始位置被标记为黑色点。所有初始位置都是随机选择的，因此所选的初始位置基本上代表了整个工作空间。跟踪点与视野中心之间的距离也被称为跟踪误差。每个样本数据之间的时间间隔为0.05秒。连续体腹腔镜可以被控制以调整视野，直到跟踪点位于图像平面的视野中心。如图6b所示，距离步骤曲线在最初的几个步骤中会振荡，然后随着步骤的增加，系统的状态将变得稳定。大约经过25个步骤，跟踪点以10个像素的误差位于视野中心。这种状态还表明跟踪是成功的，并且连续体腹腔镜将保持当前状态，除非器械移动。三次重复试验的误差几乎相同，这表明了所提出的最优控制方法的稳定性。

在这里插入图片描述
图5. 在模拟中，当连续体腹腔镜追踪静止的器械时，目标位置与视野中心之间的距离在不同的LQR控制器参数下变化。 a) 不同 Q的模拟结果。b) 不同 R的模拟结果。

图6. 连续体腹腔镜追踪静止器械的模拟结果。黑点表示视野中追踪点的初始位置，这些位置是随机选择的。 a) 在不同初始位置下追踪单个手术器械的重复试验模拟结果。b) 目标位置与视野中心之间的距离在四次重复试验中的变化。c) 追踪双手术器械。d) 目标位置（两个器械的中心）与视野中心之间的距离。

B. 运动器械跟踪
图7a显示了单个器械上追踪点的轨迹。当手术器械沿着圆形轨迹移动时，全局相机图像平面中连续体腹腔镜的视野中心也随着手术器械移动。从全局相机可以看出，连续体腹腔镜可以随着手术器械的移动追踪关键点。进一步进行了追踪两个移动手术器械的模拟。图7c显示了追踪双器械的轨迹。在器械上检测到的两个关键点的中心被设置为追踪点。图7d显示了追踪两个器械时追踪点与视野中心之间的距离。此外，图7d还显示了在模拟环境中从两个手术器械上检测到的追踪点到视野中心的距离。

模拟结果表明，通过追踪移动的手术器械，本文的方法是可行的。此外，根据追踪点的位置，腹腔镜的视野可以进行良好的调整。模拟结果还表明，连续体腹腔镜可以提供稳定的视野。在追踪单个移动器械和两个移动器械时，追踪点与视野中心之间的距离分别约为6.02和5.84像素。

C. 与基于泰勒级数的方法的比较
图8a展示了两种方法在追踪静态器械时的比较。所提出的方法中使用的切比雪夫多项式更加复杂。因此，达到系统的平衡状态（手术器械出现在视野中心）比使用泰勒级数方法更慢。另一方面，所提出方法的误差小于基于泰勒级数的方法。然后比较了使用这两种方法追踪移动手术器械时的追踪点与视野中心之间的距离。如图8b所示，基于泰勒级数的方法的追踪误差为14.76像素，而基于切比雪夫的方法的误差为11.23像素。小的误差变化表明提出的方法可以通过自动控制腹腔镜提供更稳定的视野。
在这里插入图片描述
图8. 在使用泰勒级数和切比雪夫多项式构建Koopman算子的观测函数时，跟踪点与FOV中心之间的距离。 a) 跟踪静止的手术器械。b) 跟踪移动的手术器械。

5. 实验部分
实验设置：使用基于提出的自动追踪系统的连续体腹腔镜构建了一个与仿真环境一致的实验平台，以验证数据驱动控制方法。如图9所示，一个直径为2毫米的针孔摄像头，分辨率为400 × 400像素，固定在电缆驱动的连续体操纵器（Intuitive Surgical，美国加利福尼亚州）的末端执行器上。通过USB端口可以以30 Hz的频率获取感知图像。

连续体操纵器有四个连接的关节，可以分为两组。关节1和关节4控制在X轴方向上的运动，并且都由无刷电机（Maxon Group，Sachseln，Switzerland）驱动。关节2和关节3控制在Y轴方向上的运动，并由另一个无刷电机驱动。连续体操纵器在Z轴方向上固定，这可以确保一旦确定了初始位置就能保证安全。 Elmo驱动器（Elmo Motion Control Ltd.，Israel）通过EtherCAT总线精确地驱动电机，接收来自TwinCAT3（Beckhoff Automation GmbH & Co. KG，Germany）的命令。大型针
头夹持器和抓握式牵引器（Intuitive Surgical，California，USA）在本研究中使用。
在这里插入图片描述
图9. 实验设置。a) 电路模块。b) 跟踪前后的腹腔镜状态。c) 视觉反馈模块。d) 跟踪前的腹腔镜视图。e) 跟踪后的腹腔镜视图。

数据收集和实施：首先，为了训练基于学习的姿态估计模型，使用实验平台收集了一个内部数据集，其中包含3000张使用两个手术器械的图像。内部数据集按照姿态估计任务的标签规则进行标注，使用LabelImg软件。进行了数据增强以扩大数据集并防止过拟合问题。

收集了关于系统状态和输入的50,000对数据。根据收集到的系统状态和输入，估计了连续体腹腔镜系统的Koopman算子 K˜d的方程。然后确定了中系统的动态模型。在LQR中使用的参数与仿真环境中选择的参数相同。参数M为5，惩罚系数fi的值为10。根据LQR控制的控制策略，连续体腹腔镜系统的状态将随着电机的输入而改变。一旦确定了更新的系统状态，就可以计算系统的新输入。然后通过Elmo驱动器控制电机并转到指定的角度，从而实现调整连续体腹腔镜视野的目标。

表1.所提出的关键点检测模型在公共数据集和内部数据集上的目标关键点相似度矩阵的结果
在这里插入图片描述
关键点检测实验：运动模糊、手术器械的镜面反射、血液、手术烟雾和组织遮挡是医学图像分析中的主要挑战，也适用于手术器械的关键点检测任务。为了评估所提出的姿态估计模型在面对这些挑战时的能力，首先在公开的EndoVis挑战数据集上进行了实验。该数据集是从几个腹腔镜结直肠手术中收集的。该数据集还使用了一个大型针夹，与内部收集的数据集相同。

EndoVis挑战数据集包含1850张图像：940张用于训练，910张用于测试。帧分辨率为720 × 576像素。为了评估提出的框架，使用了一个标准指标，即物体关键点相似度（OKS）用于姿态估计任务。报告了标准平均精度（AP）和平均召回率（AR）得分，包括AP50 （OKS ¼0.5处的AP），AP75（OKS ¼0.75处的AP），AP（从OKS ¼0.50到OKS ¼0.95的AP得分的平均值，增量为0.05），APM （中等大小器械的AP得分），APL（大型器械的AP得分）和AR（从OKS ¼0.50到OKS ¼0.95的AR得分的平均值，增量为0.05）。结果显示在表1中。图10更直观地展示了两个数据集上手术器械的姿态估计结果。
在这里插入图片描述图10. 使用提出的基于学习的姿态估计方法在两个数据集上的关键点检测结果示例。从上到下，展示了公共数据集和内部数据集。

此外，为了与其他方法进行比较，还使用了相同的评估标准，如下所示：平均精度（mAP），平均定位误差（mLE）和检测时间。如表2所示，所提出的方法在mAP方面达到了96.27％，mLE方面达到了1.1像素，帧率为34.3。实验结果表明，基于姿态估计任务的关键点检测方法可以获得相对较高的关键点位置精度，并避免了其他方法的缺点。

表2. 所提出的姿态估计模型与其他方法的比较结果。
在这里插入图片描述
通过基于学习的姿态估计方法，可以获得手术器械不同部位的像素位置。在不同的手术阶段，使用不同的手术器械。由于器械形状的差异，可以自动调整追踪点以获得更好的视野。手术器械的尖端通常靠近待操作的目标组织。位于视野中心的目标组织可以为外科医生带来更好的手术体验。选择以头部作为参考点以获得更好的视野。此外，在视野中将两个手术器械的重量设置为1:1，同时追踪这两个器械。

追踪静态器械的实验：进行了追踪静态手术器械的实验，以评估自动腹腔镜控制方法来调整连续体腹腔镜的视野。对不同的手术器械进行了重复试验。只有手术器械的初始位置不同。如图11a所示，黑点表示手术器械上追踪关键点的初始位置。散点表示每一步追踪点相对于视野中心的位置。图11b显示了追踪点与腹腔镜视野中心之间的距离。当连续体腹腔镜通过视觉反馈自动调整视野时，需要大约25步才能接近视野中心。这与在仿真环境中的验证结果一致。经过25步后，连续体腹腔镜基本保持静止，表明所提出的方法在达到追踪目的后提供了稳定的视野。系统稳定时，追踪误差约为39.1像素。

图11c显示了两个手术器械上的关键点以及追踪点相对于视野中心的像素位置。值得注意的是，视野中两个手术器械的权重是相同的。图11d显示了追踪误差和两个手术器械的相对位置的变化，这与执行单个手术器械追踪任务时的性能一致。
在这里插入图片描述图11. 连续体腹腔镜追踪静态器械（大号针夹和夹持牵引器）的实验结果。. 黑点表示视野中追踪点的初始位置。a）分别追踪两个手术器械，初始位置不同。b）分别追踪两个手术器械时，追踪点与视野中心的距离。c）同时追踪两个手术器械。d）追踪点（两个器械的中心）与视野中心的距离。

追踪移动手术器械的实验：首先，评估了提出的方法对于一个移动手术器械的效果。如图12a所示，散点表示连续体腹腔镜视野中手术器械上追踪点的相对位置。颜色条的数量表示图像平面上追踪点的密度。数值越高，追踪点在手术器械运动区域内的次数越多。可以看到，大多数追踪点位于视野中心附近。追踪点与腹腔镜视野中心的距离如图12b所示。追踪移动手术器械时的平均距离约为45.77像素。

在这里插入图片描述
图12.移动手术器械（大号针头夹和抓握牵引器）的像素位置与初始位置进行比较。颜色条代表位置密度。 a) 单个手术器械移动时追踪点的像素坐标密度。b) 追踪单个手术器械时目标位置与视野中心的距离。c) 同时移动双手术器械时追踪点的像素坐标密度。d) 目标位置（两个器械的中心）与视野中心的距离。

上述实验证明了提出的自主腹腔镜控制方法的可行性，可以调整视野范围，无论手术器械是否移动。然而，手术器械的快速移动导致关键点检测的准确性下降，从而影响手术器械的追踪准确性。在实验中，手术器械的平均移动速度约为 $173.54像素/秒^{-1}$ ，这在临床手术中足够使用。从手术器械自动追踪任务的实验结果来看，追踪单个移动器械和双重移动器械时，追踪点与视野中心之间的距离分别约为45.77像素和28.47像素。这些结果大约占连续体腹腔镜视野范围的11.44%和7.12%，远小于临床手术的视野范围误差。考虑到连续体腹腔镜系统的动态不确定性，该系统的内部误差约为19像素。这表明提出的带有连续体腹腔镜的自主视野调整方法可以满足临床要求。除了作为手术程序的一部分进行腹腔镜视野调整外，所提出的方法还可以促进机器人手术过程的自动化。

未来展望
将考虑连续性腹腔镜在Z轴方向上的自由度，以扩大视野，为外科医生提供更好的体验。还将研究受限工作空间和输入，以确保机器人手术的安全性。

Reference
[1] Kong, X., Mo, H., Dong, E., Liu, Y., & Sun, D. (2023). Automatic Tracking of Surgical Instruments with a Continuum Laparoscope Using Data‐Driven Control in Robotic Surgery. Advanced Intelligent Systems, 5(2), 2200188.