首页 > 科技 > > 正文
2019-10-14 15:29:01

伦敦国王学院首次推出以隐私为中心的神经网络训练方法

导读 人工智能在医疗保健中有许多潜在的重要应用,从诊断患者到开发挽救生命的药物。然而,为医疗保健应用训练健壮的神经网络说起来容易做起来难

人工智能在医疗保健中有许多潜在的重要应用,从诊断患者到开发挽救生命的药物。然而,为医疗保健应用训练健壮的神经网络说起来容易做起来难。训练神经网络需要大量的质量数据,但是在卫生部门,患者数据必须保持安全和私密。这限制了研究人员必须使用的数据集的大小。

本周,来自Nvidia和伦敦国王学院的研究人员推出了一种新的神经网络训练方法,可以绕开这一主要障碍。在本周于中国深圳举行的MICCAI医学影像会议上,他们将展示他们的研究成果,以构建用于医学影像分析的保护隐私的联邦学习系统。

联合学习是一种基于分散数据的学习范例。无需依赖在单个位置上汇总的数据,而是可以在不同站点进行多次迭代来训练算法模型。在医疗保健领域,这为医院和其他想要集中资源来训练深度学习模型而无需实际共享其数据或让其无法拥有的组织提供了一定程度的隐私。

Nvidia和国王学院的研究人员采用客户端服务器联合方法和集中式服务器来维护全局深度神经网络。在这种方法下,将为参与的医院提供其神经网络的副本,以便在自己的数据集上进行训练。

federated-learning-animation-still-white.png

一旦在本地对模型进行了几次迭代训练,参与者便会将其更新版本发送回中央服务器。然后,服务器将汇总所有参与者的贡献,以创建“共识模型”。新的共识模型将再次与参与者共享,培训将继续。

但是,正如Rieke解释的那样,最近的研究表明,通过模型反演,仍然有可能推断出用于训练模型的数据集的信息。研究人员着手创建一个解决该隐私漏洞的联合学习系统。

他们采取的第一步是仅将模型更新的一部分从参与者传达回中央服务器。研究人员发现,他们可以隐藏多达90%的模型,并且仍可以汇总性能水平与使用集中式学习系统所达到的性能水平相当的共识模型。

然后,研究团队又进一步注入了随机噪声,以掩盖数据。通过与他们一起使用的特定数据集,他们发现他们可以掩盖40%的模型并注入噪声,同时仍然可以达到相同的性能水平。

为了进行这项研究,研究小组使用了BraTS 2018数据集中的脑肿瘤分割数据,该数据包含285位脑肿瘤患者的MRI扫描图。BraTS数据集包括来自13个机构的数据。这项研究使用的联合学习系统的好处之一是,机构可以在不影响模型训练过程的情况下加入或退出模型训练过程。

Rieke解释说,如果一个组织退出,“可用的数据将更少”,但其他组织可以继续在这一全球模型上共同努力。

鼓励协作培训工作可能会对医疗保健AI的发展产生明显影响。要了解对大型数据集的需求,它有助于考虑要被视为该领域专家的医师必须检查的医学图像数量。具有15年经验的医学专业人员一年可能阅读大约15,000例病例,总计225,000例。大多数开放式健康数据集所提供的图像都不多。

Nvidia的医疗保健主管Abdul Hamid Halabi说:“医疗保健AI真正的最大挑战是建立这种强大的,可推广的模型。