主页 > 创新知道 >吴恩达团队最新医学影像成果:肺炎诊断準确率创新高 >

吴恩达团队最新医学影像成果:肺炎诊断準确率创新高

吴恩达团队最新医学影像成果:肺炎诊断準确率创新高

知名深度学习专家吴恩达和他在史丹佛大学的团队一直在医疗方面努力。之前,吴恩达团队研发出一种深度学习演算法,可诊断 14 类别的心律失常。近日,该团队又出新成果,他们提出一种名为 CheXNet 的新技术。研究人员表示:新技术已在辨识胸部透视图中肺炎等疾病準确率超越了人类专业医师。

研究人员开发的全新演算法,能从胸部透视图侦测肺炎,且水準超越专业放射科医生。此演算法称为 CheXNet,是一个 121 层的卷积神经网路。该网路在目前最大的开放式胸部透视图资料库「ChestX-ray14」训练。ChestX-ray14 资料库包含 14 种疾病的 10 万张胸部前视图 X 光影像。

背景

据了解,仅在美国,每年就有超过 100 万成年人因为肺炎住院,5 万人因为该病死亡(CDC,2017)。目前,胸部 X 光检查是诊断肺炎的最佳方法(WHO,2001),这种方法在临床护理和流行病学研究发挥重要作用。然而,透过 X 光片诊断肺炎是一个具挑战性的工作,需要放射科医师具备专家级的判断能力。吴恩达团队的最新成果中,电脑科学院和医学院的研究人员共同提出一种新的机器学习模型,可让电脑透过胸部透视图自动诊断肺炎,其诊断準确率超过了放射科医师。

吴恩达团队最新医学影像成果:肺炎诊断準确率创新高

 图一:ChexNet 是一个 121 层的卷积神经网路,汇入胸部透视图,汇出患病机率。在这个例子中,CheXnet 準确探测到肺炎,同时定位图中最有可能患病的位置。

CheXNet 可汇出肺炎可能性的热区图。研究人员在最近发表的 ChestX-ray14 资料库(Wang et al., 2017)训练了 CheXNet。该资料库包含 112,120 张各自标注最多 14 种不同胸部疾病(包括肺炎)的正面胸部透视影像。研究人员使用密集连线(Huang et al., 2016)与批归一化(Ioffe & Szegedy, 2015)来最佳化深度神经网路。

吴恩达团队最新医学影像成果:肺炎诊断準确率创新高

 图 2:CheXNet 使用胸透影像辨识肺炎工作的表现要超过放射科医师的平均水準。测试中,CheXNet 与 4 名人类放射科医师在敏感度(衡量正确辨识阳性的能力)及特异性(衡量正确辨识阴性的能力)上比较。放射科医生的个人表现以橙色点记号,平均值以绿色点记号。CheXNet 汇出从胸部透视图测出的患肺炎机率,蓝色曲线是分类临界值形成的。所有医师的敏感度─特异性点均低于蓝色曲线,这意味着 CheXNet 肺炎诊断水準与放射科医师相同,甚至更高。

对放射科医师来说,要用胸部 X 光发现肺炎很困难。胸部透视影像中,肺炎的特徵通常很模糊,容易和许多其他良性不规则混淆。这些差异导致放射科医师在诊断肺炎时有相当大差异。为了评估放射科医师的表现,史丹佛大学的研究人员找来四名专业放射科医师,使用 ChestX-ray14 子集的 420 张图片测试他们。这 420 张图片里,诊断正确与否的标準为其他大多数放射科医生的投票结果,与此同时,CheXNet 模型也以同样的标準测试。

研究人员发现,该模型在敏感性和特异性的肺炎侦测工作超过放射科医生的平均水準。为了比较 CheXNet 与之前使用 ChestX-ray14 模型的能力,研究人员对照新模型与其他模型在 ChestX-ray14 对 14 种疾病的诊断準确率,结果发现新模型的表现在所有方面均超过之前的结果。以放射科专家的水準从胸部透视影像自动侦测出疾病,不仅在临床流程有巨大好处,且对那些无法享受专家资源的人来说,都非常宝贵。

CheXNet问题表述

肺炎侦测工作其实是一个二元分类问题,汇入的是正向正面胸部 X 光影像 X,汇出是分别指示肺炎存在或不存在的二元标籤 t∈{0, 1}。对训练集合中的单个标籤,研究人员最佳化双向叉熵损失。

模型架构和训练

CheXNet 是一个 121 层的密集卷积神经网路(DenseNet)(Huang et al., 2016),是基于 ChestX-ray14 资料集合进行训练。DenseNet 透过神经网路最佳化资讯流和梯度,使非常深入的神经网路最佳化工作更易于处理。团队将最终全连线图层交替成为单汇出影像,之后再应用非线性 Sigmoid 函数(常见的 S 形函数)汇出包含肺炎发生机率的影像。

神经网路的权重是随机起始化,并利用 Adam 标準参数(β1 = 0.9 and β2 = 0.999)进行端到端训练(Kingma & Ba, 2014)。研究者使用了规格为 16 的迷你批处理档案训练该模型,并且过度取样少数(正)类(Buda et al., 2017)。团队还使用一个 0.01 初始学习率,每进行十次验证就会衰退一个要素,在一个时期之后进入损失平稳期,再选取最低验证损失的那个模型。

数据训练

据了解,研究人员使用 ChestX-ray14 资料集,该资料集合是由 Wang et al. (2017) 发表的,其中包含了 30,805 名患者的 112,120 的前胸 X 光片。Wang et al. (2017) 採用放射医学的自动撷取方法,用最多 14 个不同的胸腔病理学标籤来标注每张 X 光影像。他们将有肺炎记号的 X 光影像记号为正向範例,然后把其他标籤的影像记号为肺炎侦测工作的负向範例。团队将整个资料集合随机拆分,80% 的资料用于训练,20% 的资料用于验证。

将胸透影像导入进神经学习网路之前,研究人员把影像大小缩小到 224×224,然后基于 ImageNet 训练集合的影像均值和标準偏差归一化。此外,还透过随机水準调整来增强训练资料。

测试

研究人员收集了 420 张前胸 X 光片为测试资料集合,这些资料是史丹佛大学 4 位获得放射科执业资格的医师提供,他们也都被要求按照 Wang et al. (2017) 约定的 14 种病理学基準标注影像。

这四名放射科医师分别有 4 年、7 年、25 年和 28 年从业经验,其中一位放射科医师还是次级专科研究生,并受过专业胸腔放射科医师培训。不过,所有测试的放射科医师都无法抓取任何患者资讯或有关病理知识的资料。标籤将汇入一个标準化资料录入程式。

CheXNet 表现 vs. 放射科医师表现

吴恩达团队最新医学影像成果:肺炎诊断準确率创新高

 表 1:CheXNet 在 ChestX-ray14 资料库里 14 种病变的侦测结果与另外两种模型比较。侦测肿块、结节、肺炎、气胸和肺气肿时,CheXNet 的表现超越之前业界最佳水準至少 0.05。

研究人员评估肺炎侦测工作测试集合放射科医师的表现。回想一下,在 test420 中每个影像都有来自 4 名执业放射科医生的真实标籤。研究者使用大多数投票为基础来评估其他 3 名放射科医师的表现。同样,他们也让 4 名放射科医师中 3 个做大多数投票,来评估 CheXNet 的表现,并重複做 4 次,这样可以全面覆盖 3 组医师(每组 3 人)。

受试者工作特徵(ROC)曲线比较 CheXNet 和发射科医师表现,该曲线将模型敏感性与 1─特异性比较。图 2 展示 ROC 曲线模型,以及 4 名放射科医师及其平均运算元:每个独立发射科医师的表现都用橙色记号表示,平均值则是用绿色表示。CheXNet 汇出胸腔 X 光片监测出肺炎的概率,并透过改变分类边线阙值来生成 ROC 曲线。结果显示,CheXNet 能与放射科医师一样,甚至可超出他们的水準侦测出肺炎。

事实上,研究者还设了两个限制条件。首先,CheXNet 模型和放射科医师都不允许使用之前曾检查过的患者资料,或是其他患者病史资料──因为这已被证明会降低放射科医师的表现(Berbaum et al., 1985; Potchen et al., 1979)。其次诊断时,仅向放射科医师和 CheXNet 模型提供正面 X 光片,但是如果想提升 15% 诊断準确率,至少还需要患者侧面 X 光影像资料(Raoof et al., 2012)。因此,在这两个限制条件下,其实对人类放射科医师的表现评估比较保守。

相关工作

最近,深度学习和大型资料集的发展使演算法效能在各种医学影像测试超过医学专家,包括糖尿病视网膜病变侦测(Gulshan et al., 2016)、皮肤癌分类(Esteva et al., 2017)、心律失常侦测(Rajpurkar et al., 2017)和出血辨识(Grewal et al., 2017)。

吴恩达团队最新医学影像成果:肺炎诊断準确率创新高

 图 3:使用 Class Activation Maps,ChexNet 定位辨识出的病变,高亮区域是分析病症需要重点观察的位置。

胸部影像的自动化诊断得到越来越多关注,包括肺结核分类(Lakhani & sun daram, 2017)和肺结节侦测(Huang et al., 2017)。Islam et al. (2017) 利用公开可用的 OpenI 资料库(Demner – fushman et al., 2015)研究不同卷积架构对不同不规则侦测的表现。Wang et al. (2017) 发表了 ChestX-ray14,比之前的资料库大了一个量级,同时在 ImageNet 还预先训练不同卷积神经网路架构。最近,Yao et al. (2017) 利用标籤间的统计相关性做出更準确的预测,超过了 Wang et al. (2017) 14 种里 13 种。

肺炎在患者发病率和死亡率中占很大比例。早期诊断和治疗对预防包括死亡在内的併发症至关重要。胸透检查每年大约有 20 亿次,是最常用的成像检查工具,用于检查、诊断和管理包括肺炎在内的各种疾病。然而,世界卫生组织估计,即使有放射装置,全球三分之二的人口也会因缺乏优质的放射科医生,而导致可治疗疾病的死亡率上升。

研究人员表示,机器自动化能力不断提高,希望这项技术可提高医疗保健水準,让缺乏优质放射科医生资源的地区也能享受到专家级的医疗。

相关推荐