[Oncologist]深度卷积神经网络助力肺结节诊断分类

2019-04-28

3008 0

研究背景：

随着低剂量螺旋CT（LDCT）的普及，检出了越来越多的肺部结节，使患者得以早期诊断，早期手术临床治愈率越高。然而，将CT作为筛查手段仍存在较高假阳性率（即CT发现的结节可能不一定是恶性，或是极度惰性生长肿瘤），此外激增的CT分析工作也大大占据放射科医师有限的工作时间和精力，一定程度导致了漏诊的出现。如何在提高结节检出率的同时兼顾良恶性的诊断准确率？近年来机器学习算法在医疗领域的大展拳脚（糖尿病视网膜病变/皮肤病/甲状腺结节等），基于卷积神经网络算法（机器学习算法一类）的肺结节诊断模型有望解决这一难题。基于此，广东省肺癌研究所吴一龙教授/钟文昭教授团队联合国内多家中心，腾讯优图实验室，清华等共同开发了这一肺结节筛查诊断模型，初期研究结果于近日发表在The Oncologist。

研究数据：

开源数据训练集：LUNA16数据库和Kaggle数据库

训练集和验证集：广东省人民医院、中山大学附属第三医院、佛山市第一人民医院、广州胸科医院；（2015年5月至2016年10月可获得原始影像数据和病理对照的病例）

前瞻性验证集：广东省人民医院肺癌研究所, 呼吸科及放射科（始于2017年1月，共连续收集50例有病理金标准明确良恶性肺结节CT影像）

人工诊断团队：25个国内多中心，经验丰富的专科医师团队（包括影像，胸外科，呼吸科，肿瘤科等）对50例前瞻性CT片进行良恶性评估。结果直接与诊断模型进行对比。

智能模型分析步骤：

1、预处理模块：从CT切片中分离出包含肺组织的图像区域，阈值0HU去除无关组织（骨与软组织），接着使用自适应阈值图像分割方法，建立3维模型；重建3维图象为标准化的切片厚度和分辨率，以避免不同CT机器的误差。

2、结节诊断模块：建立3D肺结节检测网络获得重建图象的3D特征；在Pythorch平台上分两步训练CNN（卷积神经网络）模型，a, （结节检测网络），输入信息包括图象和相应的位置附加信息；b, 根据第一步的检测网络参数初始化结节诊断网络，并对输出图象和相关诊断结果进行微调。

输出模块：在结节诊断网络计算出所有结节的恶性评分后，对其进行融合以得出最后的图象级恶性评分。融合图像级恶性肿瘤评分可用公式Pf=1−(1−p1)(1−p2)…计算。(1−PN)，其中P代表结节恶性的概率，N代表结节的数目。

研究结果：

首先，使用LUNA16和Kaggle数据对模型进行预训练，接着使用来自上诉各中心的数据进行训练和验证。基于多中心影像数据训练后的模型诊断敏感性和特异性分别达到84.4%和83.0%，AUC为0.855。同时可以观察到，随着训练图象样本量的增加，模型整体检测灵敏度，特异度以及AUC均增加。同时我们将该模型算法与Kaggle比赛中第一名算法（Kaggle模型）进行基于第三方影像数据的比较，基于0.757的特异度水平，该模型的敏感性是0.752而Kaggle模型是0.661（见图4A），AUC分别是0.803和0.767。

针对结节直径大小进行亚组分析（0-10mm, 10-20mm, 20-30mm）比较，可以看到，三个亚组之间均无显著统计学差异，提示该模型早期微结节中同样具有较高诊断准确率。此外可以看到，模型对于腺癌的诊断准确率最高达到85.7%，可能是因为受到整体腺癌占比较高数据偏倚导致。

最后，基于前瞻性收集的50例肺部结节CT，我们分别对比了医师团队，预训练模型，训练后模型以及Kaggle第一位模型算法的诊断效力，可以看到预训练模型与医师团队评估结果相近，相比于Kaggle第一位算法两者均具有更高准确性，而该训练后模型无论在灵敏度（96.0%），特异度（88.0%）抑或是准确度（92.0%）上均较其它三者具有更高的诊断效力。

结论与讨论：

在这项研究中，深度学习算法应用于肺结节临床检出与诊断的可行性得到验证。与医师团队相比，该模型在结节检测和分类的能力上表现出了优势。此外，通过与医师团队，Kaggle排行第一的算法比较，模型使用的CNN算法在结节分类能力上也具有相当不错的表现。

不同于既往报道未使用真实世界数据或使用病理结果对模型进行深入验证的研究，这项研究使用改进的深度神经网络和具有病理金标准标签的大数据集，对基于深度学习的模型的应用进行了优化，并将其推广到真实医疗环境中，使其敏感性和特异性达到了84.4%和83.0%，最大限度地减少了假阳性和假阴性结果。此外，亚组分析显示，其对小结节的检测效率（0-10mm）很高，同大结节（10-30mm）诊断效力类似。同时，该模型的诊断能力也比既往报道的计算机辅助结节检测工具有更高的敏感度和特异度，同时该模型随着数据的增加，能进一步优化其诊断鉴别效能。当然该研究也存在一定的不足，相比于既往研究而言，该研究入组的肺结节均为临床诊断早期肺结节，并非来自于筛查队列的数据，可能无法更真实反映该模型在早期筛查中应用实际效能；其次我们仍然无法很好区分出进展缓慢的早期结节，可能需要更多多次随访影像资料的纳入以更好对早期筛查患者进行分层及指导后续处理方案；此外该模型纳入的数据量相较于其他机器学习样本量仍然较少，还需要在更大样本量中进一步验证。

这项研究使用基于深度学习算法的模型显著提高了早期肺癌检出和诊断的敏感性及特异性，且其诊断效力接近于经验丰富的专科医师团队，提示今后应用这一类模型算法辅助临床医师日常肺部影像诊断的可行性，同时提高早期结节检出率及诊断率，使更多患者能够得到早期治疗干预，进一步降低肺癌相关死亡率。

作者：肺癌前沿

校对：吴子悦 2019年8月8日

参考文献：Zhang C, Sun X, Dang K, Li K, Guo XW, Chang J, Yu ZQ, Huang FY, Wu YS, Liang Z, Liu ZY, Zhang XG, Gao XL, Huang SH, Qin J, Feng WN, Zhou T, Zhang YB, Fang WJ, Zhao MF, Yang XN, Zhou Q, Wu YL, Zhong WZ. Oncologist. 2019 Apr 17. pii: theoncologist.2018-0908. doi: 10.1634/theoncologist.2018-0908. https://www.ncbi.nlm.nih.gov/pubmed/30996009

特别感谢所有参与到该研究前瞻性验证的单位(排名不分先后)：广东省人民医院，中山大学肿瘤防治所，中山大学附属第一医院，中山大学附属第三医院，中山大学附属第五医院，中山大学附属第六医院，汕头中心医院，深圳市人民医院，佛山市第一人民医院，南京总医院，湖南省肿瘤医院，北京肿瘤医院，北京首钢医院，北京大学第三医院，盛京医院，天津总医院，天津肿瘤医院，复旦大学肿瘤医院，复旦大学中山医院，北京胸科医院，河南省人民医院，河南省肿瘤医院，唐都医院，福建省肿瘤医院，西京医院，浙江省附属第一医院，武汉协和医院。