吴恩达-最大医学影像数据集MURA,深度学习检测骨骼疾病

  • 2
  • 8,019 views
  • A+
所属分类:医信大学

(转自雷锋网https://www.leiphone.com/news/201801/eqln3hVeq73WCDh3.html)

少量、高质量的数据集推进了深度学习范畴的开展。近日,斯坦福吴恩达团队开源了 MURA 数据库,包括 14982 个病例的上肢肌肉骨骼X光片。每个病例包括一个或多个图像,均由放射科医师手动标志。团队表示,为鼓舞医学影像诊断模型的提高,MURA 数据库可以无偿使用。数据集地址为 https://stanfordmlgroup.github.io/projects/mura

异常检测义务,也就是经过组织器官的 X 光片来确定机体的安康情况,对患病状况停止直接诊断。全球超越 17 亿人都有肌肉骨骼性的疾病,这也是招致临时疼痛和残疾最罕见的病因。据雷锋网理解,每年有 3000 万左右的急诊病例,这个数字还在不时下跌。

数据采集和训练

MURA 是目前最大的 X 光片数据库之一,包括源自 14982 项病例的 40895 张肌肉骨骼X光片。1万多项病例里有 9067 例正常的下级肌肉骨骼和 5915 例上肢异常肌肉骨骼的 X 光片,部位包括肩部、肱骨、手肘、前臂、伎俩、手掌和手指。

表一:MURA 数据库包括 9067 例正常和 5915 例异常肌肉骨骼影像学研讨,包括肩部,肱骨,手肘,前臂,伎俩,手掌和手指等上肢。MURA 是最大的公共影像数据集之一。

基于 MURA,我们开发了一个无效的异常检测模型。将一个或多个 X 光片输出该模型来研讨上肢局部。经过 169 层的卷积神经网络预测每个 X 光片的异常概率,然后得出同一病例一切 X 光片异常概率的均匀值,作为 X 光片的异常概率输入。

图2.该模型输出一个或多个 X 光片,经过 169 层的卷积神经网络预测异常的概率,然后输入异常概率的均匀值。

为了无效地评价模型并取得放射科医师关于模型的评价,我们从 209 项继续跟踪的病例中挑选了 6 个病例,搜集专业放射科医生给出的诊断后果。将模型和放射学家给出的诊断后果停止比拟,发现模型的诊断才能到达了放射学家相当的程度。 在诊断手指和伎俩异常时,模型检测异常的才能强于最好的放射科医生。但是,在诊断膝、前臂、肱骨和肩部异常时,模型的表现不如放射学家的表现。

机构审查委员会的同意之后,我们经过斯坦福医院的PACS零碎搜集了被辨认的、契合HIPPA的图像。我们搜集了来自12251名患者、14982项研讨的肌肉骨骼放射学数据集,共有40895个多视图的影像。每一个都属于七个规范的上肢放射学研讨类型之一:肘部、手指、前臂、手、肱骨、肩膀和伎俩。表1总结了正常和异常研讨的散布状况。

预测模型VS放射科医生

斯坦福医院的放射科医生将2001年到2012年的每项研讨手工标志为正常或异常。在对DICOM图像停止解释时,对至多300万像素的PACS医用级显示器停止理解释,其中最大亮度为400 cd/m2,最小亮度 1 cd/m2,像素尺寸为0.2,本机分辨率为1500 x 2000像素。临床图像在分辨率和纵横比上有所不同。我们将数据集拆分为训练(11255名患者,13565个研讨,37111个图像)、验证(788例,1208项研讨,3225张图片)、测试(208个病人,209个研讨,559个图像)。数据集在任何一组患者之间没有堆叠。

为了评价模型并失掉放射科医生的牢靠验证,我们从斯坦福大学的放射学专家那里搜集了一些额定的标签,这些标签包括209个肌肉骨骼研讨。放射科医生在运用PACS零碎的临床阅览室环境中,对每项研讨停止了回忆和标志,并将其标志为DICOM文件。放射科医生均匀有8.83年的经历,从2年到25年不等。放射科医生没有取得任何临床材料。标签被输出到一个规范化的数据录入零碎中。

我们评价了放射学家和模型在测试集上的表现。研讨中,我们从6名认证的放射科医生那里搜集了额定的正常/异常的标签,选择了三名放射科医生来创立一个金规范,应用其他三位医生来评价人类在这项义务上的表现。

表二总结了放射科医生和模型在不同研讨类型和总体上的表现。放射科医生在腕部研讨(医生2)或肱骨研讨(医生1和3)上获得了最高的成果,他们在手指研讨上的表现最差。该模型在腕部研讨中也到达了最高的表现。在腕部研讨中,模型表现与最好的放射科医生表现相当。在一切其他研讨类型中,模型的表现分明低于人类的表现。

表二:每个研讨类型和总体上突出表现最佳(绿色)和最差(白色)表现

有哪些可用的地下数据集?

大型数据集使得深度学习算法在图像辨认、语音辨认和问答等义务中完成或接近人类程度的功能。医学方面的数据集也协助迷信家在糖尿病视网膜病变、皮肤癌、心律正常、脑出血、肺炎和髋部骨折方面成为小半个“专家”。

表三:地下可用医学放射影像数据集(第二大的数据集是Pediatric Bone(预测骨龄);0.E.1是关于膝关节的数据集)

表3提供了公共可用数据集的摘要。之前的数据集比MURA要小,但最近发布的ChestX-ray14除外,它是112120个正面的胸片、包括14个胸科病理标签。但是,标签并不是直接由放射科医生提供的,而是由他们的文本报告自动生成。

很少有地下可用的肌肉骨骼X光数据集。斯坦福大学的医学和成像人工智能项目提供了一个数据集,包括了带有骨骼年龄(AIMI)的儿童手部X光片。据雷锋网 (大众号:雷锋网) 理解,数据集是由不同年龄的儿童的左手影像组成,下面标有放射科医生的骨龄读数。骨关节炎方面就得看0. E.1数据集了,其中包括标有K&L等级的骨关节炎(OAI)的膝部放射照片。上述的几个数据集都包括不到15000个图像。

骨骼肌异常检测的意义是什么?

骨骼肌x光片的异常检测具有重要的临床使用价值。首先,将异常检测模型用于任务列表的优先级排序。在这种状况下,检测到的异常可以在图像解释任务流程中前置,让最严重的患者失掉更快的诊断和医治:

正常的反省可以被适外地划分为任务列表的较低优先级;

可以将更疾速的后果传达给医患单方,从而优化医疗零碎其他范畴的配置;

放射学报告模板用于正常研讨,可用于检验放射科医生,以便停止更疾速的审查和同意。

此外,自动异常定位可以协助缓束缚射科医生的疲劳。医疗资源的散布不均加剧了这个成绩,尤其是在医疗资源集中的城市地域。虽然疲劳是一切医护专业人员常常面对的一个成绩,但放射科医生十分容易遭到影响,进而能够会影响诊断的精确性。有一项研讨标明,放射科医生在当天任务完毕时,骨折检测的效率与任务开端时相比有明显的下降。

一个可以停止自动异常定位的模型可以突出显示模型中被辨认为异常的局部,惹起临床医生的留意。假如无效的话,这将有助于更无效地协助医生停止阅片,增加错误,并协助进步规范化质量。当然了,该模型还需求更多的研讨来停止评价,并且考虑如何与其他深度学习模型在临床环境中停止最优化的整合。

 

Medical Image DatasetNote on Musculoskeletal Radiograohs(肌肉骨骼X光照片)

Andrew Y. Ng等人发布了一个大数据集,MURA[1],用于异常检测,即类别仅有正常和异常两类。
下载地址为 MURA Dataset: Towards Radiologist-Level Abnormality Detection in Musculoskeletal Radiographs
本文简要介绍这一数据集。
训练集和验证集,包含14863 studies,12173 patients,共40561多视角X光图像。但是,实际上,从两个文件train_image_paths和valid_image_paths中可知,训练集图像为36808,验证集图像为3197。如论文[1]中所述。训练集,包含11184 patients,13457 studies,36808 images;验证集,包含738 patients,1199 studies,3197 images;测试集,包含206 patients,207 studies,556 images。测试集不公开。
图像类别,包括elbow(肘部)、finger(手指)、forearm(前臂)、hand(手)、humerus(肱部)、shoulder(肩部)和wrist(手腕)。各类别包括的图像数量,如表1所示。

表 1

标注信息以“studies”为单位,标注为正常(数字0)和异常(数字1)两类。即,如果某一study还有多幅图像,这些图像都数据同意类别(正常/异常)。
Baseline模型为169层的密集卷积网络,还使用类别激活图(Class Activation Maps)可视化用于支持预测的激活区域。所图1所示。应该是不同图像类型(比如,肘部),均进行二分类。而不是一起进行14分类,因为器官类别无需通过模型进行判别。在训练过程中,他们采用的是加权二类交叉熵损失。

图 1

其他医学X光图像数据集,如表2所示。我玩过JSRT的分割。

  • HealthIT.CN小程序
  • 产学研医创新平台
  • weinxin
  • 健康数据
  • HealthIT公众号
  • weinxin
admin

发表评论

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen:

目前评论:2   其中:访客  0   博主  0

    • blingberyl123 blingberyl123 0

      为什么我下载的JSRT数据集不能用