摘要
目的:机器学习(ML)经历了革命性的十年,在许多学科上取得了进步。我们试图了解最近在ML方面的进展将如何影响未来的外科手术实践,特别是胸外科手术。
方法:回顾技术和临床领域的相关文献。
结果:ML是一项革命性的技术,有望在不久的将来改变外科手术的实施方式。在计算能力和医疗保健中产生的大量数据的推动下,ML已经显示出非凡的能力来掌握曾经留给医生的任务。监督学习、无监督学习和强化学习都是可以用来改善治疗的重要技术。ML在心脏外科的五个关键应用包括诊断、手术技能评估、术后预测、增强术中手术性能和加速转化研究。ML的一些关键限制包括缺乏可解释性、相关临床数据的质量和数量低、伦理限制和临床实施困难。
结论:在未来,心脏外科的实践将被最大限度地扩大,最终导致外科手术性能的提高和更好的患者结局。
引言
如今,人们对将机器学习应用于医学似乎有着无尽的兴趣。几乎每天都有新的研究发表,预示着ML在改善临床护理方面的应用,从改善疾病预测和筛查到各种不同专业的自动诊断,尤其是在癌症、神经病学和心血管医学领域。有些人甚至认为,ML算法有一天会取代医生日常执行的诊断思维,包括取代放射科医生等专家,尽管许多专家认为这种是没有根据的。无论如何,几乎所有人都同意,在未来几十年里,ML将会彻底改变医学在各个专业中的实践方式。
然而,很少有医生理解ML应用于临床实践时会产生的影响。特别是在胸外科领域,ML的直接应用相对较少,还有几个未开发的创新领域。在这篇综述中,我们希望揭开ML在医学中应用的神秘面纱,并激励胸外科医生接受这一强有力的工具来改善临床治疗和手术结果。
我们首先回顾ML的4个基本子类型:监督学习、无监督学习、强化学习(RL)和深度学习。然后,我们列出了胸外科中通过ML进行创新的5个成熟领域。我们最后讨论了ML的一些局限性。
机器学习方法
有4个主要的ML领域已经应用于医学:监督学习,无监督学习,RL和深度学习。
监督学习
监督最大似然算法将一组输入变量(“特征”)映射到结果,其中结果是已知的。这些特性和结果可能呈现的形式在不同的应用中有所不同。例如,特征和结果可以是二元的、连续的或者甚至是随时间变化的。如果结果变量采用连续的值范围,则称为回归任务,如果结果变量仅采用2个二进制值中的1个,则称为分类任务。监督学习算法产生不同种类的决策函数,这些函数将根据输入特征分配预测输出(表1)。然后可以比较这些决策函数的性能,以选择性能最好的算法。
大多数医生都熟悉回归模型。虽然这些模型很简单,但它们通常可以提供对线性关系的深刻见解。高级形式的回归——被称为LASSO和Ridge回归——将以限制用于预测结果的变量数量的方式惩罚大型回归系数,这被称为“正则化”或“收缩”。通常情况下,这些线性模型的性能几乎与更高级的模型一样好,并且每个输入特征对结果的影响都有明确的定义,这在医疗环境中尤其重要。如果线性模型的结果已经在治疗标准上提供了足够的改进,进一步的优化可能就不值得了。
支持向量机是另一种常见的技术。支持向量机速度快,相对灵活,已经在医学上应用多年。支持向量机的目标是在两个或两个以上的类之间找到一个最优决策边界,在这两个类之间留出最大的空间(也称为最大余量)。需要记住的一个有用的类比是,支持向量机在两组点之间找到“最宽的路”。
另一组模型被称为集成方法,以随机森林方法为例。随机森林将使用解释变量的不同组合来构建一系列决策树,以预测感兴趣的结果。每棵树将预测一个结果,然后所有决策树的模式或平均结果将被用作分类或回归的最终预测。这种方法已被证明在许多最大似然问题上表现良好,因为得到的分类器倾向于很好地推广到新数据。
还存在其他几种监督学习模型,如朴素贝叶斯模型或线性判别分析。然而这些模型在历史上被用来解决一些简单的医学分类问题,并有充分的理论依据,它们的使用主要被上面提到的一些更先进的模型所取代。
深度学习
尽管深度学习通常被认为是监督学习的一个子类,但由于当今医学中许多变革性的深度学习应用,它值得特别提及。深度学习的核心创新是人工神经网络。人工神经网络由一系列相互连接的神经元层(称为隐藏层)组成,这些层根据一组权重将输入数据转换为标量值。然后,每个神经元的输出值通过模仿生物神经元开关特性的非线性变换传递到下一层神经元。这个过程一直持续到网络的最后一层,在那里将模型的输出与真实值进行比较(图1A)。然后,在一个称为反向传播的过程中,基于每个预测的误差来优化每个神经元的权重。由于其灵活的结构,人工神经网络能够有效地使决策函数适应复杂的数据模式,并且随着数据量的增加,其性能不断提高。
深度学习方法在应用于图像时特别成功。因为图像中的空间模式和数据点的绝对数量通常使得优化人工神经网络非常慢,所以通常应用人工神经网络的变体,称为卷积神经网络(CNN)。CNN使用卷积滤波器从图像中提取特征;卷积层被堆叠在一个模型中,在没有先验的人为干预下,会提取更高级别的特征,例如形状(图1B)。这种特征提取架构可以应用于图像分类、图像内的对象定位和分割。
评估和优化监督学习模型
一旦一个监督学习模型被拟合,它必须被评估,以衡量其有效性。这允许与其他最先进的模型进行比较,并让医生了解该模型在临床环境中实施时的表现。有几种度量标准可以用来评估ML模型的性能。分类任务中最常用的测量方法之一是接收器操作员曲线(AUROC)下的区域。AUROC曲线是通过绘制假阳性率(1—特异性)与真阳性率(敏感性)在模型产生的给定阈值概率下的曲线来构建的(图2A)。0.5的AUROC表示随机分类器,而1.0的AUROC表示完美的分类器。AUROC最接近1的模型被选为最佳性能模型。另一个有用的度量是精度召回曲线,它绘制了不同阈值下分类器的精度(正预测值)与召回率(灵敏度)的关系。类似于AUROC曲线,也可以计算精度召回曲线下的区域,接近1.0的值表示更好的分类器(图2A)。计算精确召回曲线下的面积对于稀有事件的分类特别有用,因为AUROC曲线可以提升性能。回归任务试图最小化性能指标,如均方根误差,或者最大化拟合度,如R2。
任何ML模型的目标都是在未来产生准确的预测。为了估计模型在看不见的数据上的表现,可用数据被随机分割。预测模型适用于可用数据的某一部分,通常是70-80%的数据,然后将在剩余的20-30%的数据上评估模型性能(图2B)。在有大量数据可用的领域(如电子健康记录研究或成像),将进行额外的拆分,以产生一组培训、开发和测试数据;模型是在数据的开发集上评估的,一旦选择了最佳模型,就在测试集上评估一次。如果可用的数据量有限,可以采用k折叠交叉验证,其中数据被分成k个大小相等的折叠,模型在数据的k-1折叠上训练,然后在数据的剩余折叠上评估(图2C)。通常,实践中使用5或10倍交叉验证。
无监督学习
无监督学习是一种无需人工干预就能发现数据中隐藏模式的方法。与监督学习的区别在于,算法的唯一输入是原始特征,结果是未知的。重要的是,这意味着像AUROC这样的评估指标无法针对无监督模型进行计算;因此,很难客观地评估这些模型的输出,并且通常需要专家输入来确定临床疗效。
以下是无监督学习的2种主要方法:主成分分析和聚类分析(表2)。在高维数据中,每个例子都有许多变量,很难找到聚类。主成分分析试图在较低的维度上总结数据,将数据从k个维度投影到人类可以解释的两个或三个维度,同时最好地代表底层数据分布。这些低维度投影通常会揭示在较高维度上不可见或不可解释的数据集群。
顾名思义,聚类分析专注于根据相似性度量在数据中找到相似的示例组。一些例子包括k-means聚类,其可用于在分布中寻找相似数据点的k个聚类。k-means算法将首先在数据分布内随机定义k个质心,然后迭代地改进这些质心定义,这些质心定义随后被用于为分布内的数据点分配聚类标识。无监督学习在医学中的一个有用的应用是发现一种复杂疾病的新亚型。一旦确定了这个新的亚组,就可以探索不同的治疗方案,为患者提供更好的结果。这在一项新的研究中得到了证明,该研究利用层次聚类发现了射血分数保留的3种不同心力衰竭表型。尽管如此,监督学习仍然是今天使用的最大学习的主要形式。
强化学习
与监督学习相比,RL是一个根本不同的框架。RL算法不像监督学习那样需要大量的输入输出对的训练数据;相反,RL算法将训练代理(例如机器人)执行一系列动作(例如缝合伤口),这些动作激励积极行为(例如闭合伤口)并抑制消极行为(例如出血),如奖励函数中所形式化的。这是外科机器人的核心技术。算法将反复尝试不同系列的动作,直到奖励函数得到充分优化,系统能够实现适当的性能。
在过去的十年里,RL已经取得了许多显著的成就。然而,由于临床和解剖学的差异,外科手术的应用相对较少,临床实施也很困难。此外,成像、监测数据和“触觉”输入需要整合。实际的外科应用仍然很粗糙,目前还远未在手术室实施。
在胸外科中的应用
了解了ML的原理后,我们可以开始探索胸外科医生如何在各种环境中使用这项技术。大体上,ML可以帮助胸外科医生的5个基本领域是:改进诊断和术前管理,提高手术室的手术效率,技能评估,术后预测和转化研究。我们将分别讨论每个设置,展示已经完成的具体示例,并检查未来需要完成的工作(表3)。
改进诊断和术前管理
由于ML能够从进行诊断所需的复杂的、高维的并且通常是多模态的数据中得出推论,所以ML作为改进诊断的工具已经被广泛研究。ML有两个基于成像的应用,适用于胸外科手术:心脏病理学的自动诊断和前述心脏病理学的分割。在诊断方面,中枢神经系统能够检测生物医学图像中的细微模式,以便快速准确地检测病理。一个经典的例子是ML算法,它能够从胸部中检测出8种不同的病理。另一项研究使用中枢神经系统更好地检测超声心动图像中的室壁运动异常,实现了0.99的AUROC,并在相同任务中优于医生。
分割是中枢神经系统的另一个富有成效的应用,特别是对于依赖于测量器官和血管尺寸的任务。有许多适用于胸外科手术的例子,包括主动脉直径和测量心脏功能的左心室体积分割;在所有情况下,CNNs都能够匹配或超过人类水平的表现。这些研究显示了ML如何增加胸外科医生的实践,并快速计算临床相关的心脏特定参数,从而为直接患者治疗留出更多时间。
此外,由于多达95%的胸腹动脉瘤患者在出现危及生命的并发症之前没有症状,因此早期诊断将特别有益。最近,整合基因组和电子健康记录数据的ML方法也证明了诊断腹主动脉瘤的卓越能力,同时也阐明了一些潜在的遗传机制。此外,对名患者进行训练的随机森林分类器能够预测患有胸升主动脉瘤的患者的院内升主动脉破裂,AUROC为0.,灵敏度为0.99。
增强术中手术性能
外科机器人技术在过去几十年中取得了巨大进步,例如用于各种微创外科手术的达芬奇外科系统和用于心脏导管插入的SenseiX机器人导管系统。然而,这些系统目前需要持续或接近持续的人工干预。因为胸外科医生能够对高度复杂和动态的病人进行各种各样的手术,手术机器人可能永远不会完全独立于人类的控制。然而,RL动力机器人已经能够执行简单的手术子任务,例如简单的缝合和精确的手术切割。
创建一个通用的胸外科手术机器人,甚至能够执行一个单一程序的所有部分是非常具有挑战性的;创造一个能够完成所有人类胸外科医生能完成的任务的机器人几乎是不可能的。然而,一个长期目标可能是最大限度地提高机器人技术,使简单的手术任务自动化,外科医生主要扮演决策者的角色,就像飞行员在客机上使用自动驾驶控制器一样。外科医生可以设定一个机器人执行的目标,然后观察手术过程,必要时进行干预,同时不必担心手术过程中的精神运动细微差别。
在机器人领域之外,ML还可以在手术过程中帮助整合来自患者监控设备的信号,以便在手术过程中向外科医生发出早期警告。最近的一项随机试验研究了ML系统在择期非心脏手术中检测术中低血压的应用,取得了显著的成功,将低血压的中位时间从32.7分钟减少到仅8分钟。特别是在高风险手术中,类似的预警系统可以专门用于胸外科手术,降低不良事件的发生率。
外科观察和评估
考虑到手术室的动态性质以及外科医生操作的手术程序和环境的多样性,客观、实时地评估受训者的手术技能是一项特别困难的任务。然而,ML算法已被证明能够准确评估手术性能,并根据短视频片段为外科医生提供关于3个简单性能任务(缝合、穿针和打结)的定量和可操作的反馈。另一个活跃的研究领域是手术阶段识别,它包括自动检测手术的时间阶段,以提高时间安排和吞吐量。专门为胸外科做的工作有限,主要集中在普通的眼科或腹腔镜手术上。最后一个应用程序使用深度学习来识别腹腔镜手术中使用的手术工具,目的是在手术过程中跟踪工具并将其用作手术技能和质量的代表。这类技术的理想目标包括:如果外科医生偏离数据库中其他外科医生的表现,则提醒他们,或者在手术室中提供关于技术的实时指导性反馈。手术技能的客观评估,包括实时评估和回顾性评估,一直是手术界的目标;利用ML可以帮助实现这个目标。
术后预后
大部分临床医学涉及使用患者数据对未来结果进行预测,然后根据这些预测管理患者。虽然从历史上看,这些决策是基于临床经验和医学文献做出的,但是ML已经开辟了对患者结果做出高度准确预测的可能性,从而允许高度个性化的患者管理。这反映在已发表的临床评分系统的指数级增长上,自年以来大约有份这样的出版物。
预测模型在胸外科手术中特别重要,胸外科手术的并发症发生率高于其他外科专业。最近的一份出版物使用XGBoost(一种集合模型)来预测来自接受心脏手术的单一机构的11,名患者的手术死亡率,结果显示AUROC、校准、准确性和F1评分均优于胸外科医师协会的预测死亡风险评分(STSPROM)。另一项研究对名患者进行了逻辑回归分析,与急性生理学、APACHEII和Parsonnet评分等其他指标相比,提高了对心脏手术后住院死亡率的预测。第三项研究使用逻辑回归预测了急性A型主动脉夹层患者的30天死亡率,AUROC为0.。还有一项研究预测接受先天性心脏病手术的患者的30天死亡率为0.。
然而,重要的是要注意,先进的ML技术不是预测结果的万金油;一份报告指出,在医院死亡率时,ML并没有超过简单的逻辑回归。大型术后数据库的持续扩展可能会提高ML技术的预测能力。
加速转化研究
转化研究的创新总是以多种方式塑造胸外科手术的质量,从对循环停止的患者使用深度低温治疗到详细了解遗传对主动脉瘤和夹层的影响。未来的外科创新将继续依赖于类似的转化研究。
ML技术准备以不同的方式加速这个过程。特别是基因研究可以被ML彻底改变。人工神经网络也被用于基因组学,以预测致病性的突变或遗传调控机制。一项研究使用神经网络来识别与遗传性心脏病相关的单核苷酸多态性。最近的另一项研究使用来自英国生物数据库的主动脉磁共振图像的深度学习技术来测量多人的主动脉直径。然后,GWAS的研究最终确定了SVIL基因,一个在血管平滑肌中高度表达的基因,与上行和下行扩张显著相关。只有张图片需要人工评估;深度学习能够以高精度分割剩余的图像。通过增加研究的样本量和发现的速度,对生物医学成像和电子健康记录数据以及遗传序列的深入学习可以彻底改变主动脉疾病和其他心脏领域的研究。
机器学习在医学中的局限性
尽管ML领域被大肆宣传,但它并不是解决当今外科医生面临的所有诊断和管理挑战的灵丹妙药。医生在日常实践中很少使用上面讨论的有前途的应用。ML有几个值得一提的限制,总结在表4中。
也许医学中最大的缺点是缺乏对ML模型产生的结果的可解释性。ML的主要好处——揭示特征之间高度复杂和非线性的关联——也意味着人类无法理解用来建立这些关联的“黑盒”背后发生了什么。这不同于医学中的其他建模方法。例如,在线性回归中,检查回归模型的权重(即β)会给用户一个非常直观的解释:输入特征Xk增加1会将输出y增加或减少βk。已经做了几个尝试来允许在ML中进行相同类型的方便解释,但是所有这些都做出了经常被违反的假设,计算量很大,或者对模型中的扰动非常敏感。应该投入更多的努力,让临床医生看到“黑匣子”的背后,以提高对输出结果的信心。
临床实施是临床医生和ML从业者面临的挑战。虽然一个实施良好的ML模型可以无缝地适应现有的数字基础设施,但一个实施不良的模型可能会通过要求手动输入患者的数字记录而严重阻碍医生的工作流程。一个结构不良的用户界面可能会让医生增加花在病人身上的时间。因为ML的大部分创新都集中在算法和数据集开发上,所以较少