将医疗数据标注变成游戏化,以推动人工智能的发展

麻省理工学院校友的平台利用群体的智慧为人工智能公司标注医疗数据

Centaur Labs created an app that experts use to classify medical data in exchange for small cash prizes. Those opinions are used to train and improve life-saving AI models.当Erik Duhaime博士在麻省理工学院的集体智能中心进行研究时,他注意到他的妻子(当时是一名医学生)花了很多时间在提供闪卡和测验的应用程序上学习。他的研究表明,作为一个整体,医学生能够比专业皮肤科医生更准确地分类皮肤病变;关键在于不断测量每个学生在已知答案的病例上的表现,排除那些在任务上表现不好的人的意见,并智能地汇总那些表现良好的人的意见。

结合他妻子的学习习惯和他的研究,Duhaime创办了Centaur Labs公司,创建了一个名为DiagnosUs的移动应用程序,用于收集医学专家对真实科学和生物医学数据的意见。通过该应用程序,用户可以对可能是癌症皮肤病变的图像或可能表示问题的心脏和肺部声音的音频片段进行评审。如果用户准确无误,Centaur将使用他们的意见并奖励他们一些小额现金奖励。这些意见反过来帮助医学人工智能公司训练和改进他们的算法。

这种方法结合了医学专家提高技能的愿望和使用人工智能进行生物技术、开发药物或商业化医疗设备所需的良好标记的医学数据的迫切需求。

“我意识到我妻子的学习可以成为AI开发人员的有益工作,”Duhaime回忆道。“今天我们有数以万计的人使用我们的应用程序,其中大约一半是医学生,他们惊讶地发现在学习的过程中赢得了金钱。因此,我们有了这个游戏化的平台,人们通过与彼此竞争来训练数据,并在他们表现良好和同时提高技能的过程中赢得金钱-通过这样做,他们为构建挽救生命的AI的团队标记数据。”

“游戏化的医学标记”

Duhaime在Thomas Malone的指导下完成了他的博士学位,Malone是管理学的Patrick J. McGovern教授和集体智能中心的创始主任。

“吸引我注意的是群体智慧现象,”Duhaime说。“问一群人一个罐子里有多少颗软糖,每个人的答案的平均值非常接近。我对如何在需要技能或专业知识的任务中解决这个问题感兴趣。显然,你不只是想问一群随机的人你是否得了癌症,但同时,我们知道医疗保健中的第二意见可能非常有价值。你可以把我们的平台看作是获得第二意见的一种超级方式。”

Duhaime开始探索利用集体智慧来改进医学诊断的方法。在一个实验中,他训练了一组普通人和他描述为“半专家”的医学院学生来分类皮肤状况,发现通过结合最高表现者的意见,他能够超过专业皮肤科医生的表现。他还发现通过结合训练用于检测皮肤癌症的算法和专家的意见,他能够超过任何单独方法的表现。

“核心见解是你要做两件事,”Duhaime解释道。“第一件事是测量人们的表现-这听起来很明显,但即使在医学领域也很少这样做。如果你问皮肤科医生他们是否擅长,他们会说’当然,我是皮肤科医生’。他们不一定知道自己在特定任务上有多好。第二件事是当你获得多个意见时,你需要识别不同人之间的互补性。你需要认识到专业知识是多维的,所以这更像是组建最佳琐事团队而不是找到在同一件事上都最擅长的五个人。例如,一个皮肤科医生可能更擅长识别黑素瘤,而另一个可能更擅长分类银屑病的严重程度。”

在攻读博士学位的同时,Duhaime创办了Centaur,并开始利用麻省理工学院的创业生态系统进一步发展这个想法。他于2017年获得了麻省理工学院沙盒创新基金的资助,并于2018年夏天参加了由麻省理工学院企业家精神Martin Trust Center举办的delta v创业加速器。这段经历帮助他在同年晚些时候进入了享有盛誉的Y Combinator加速器。

DiagnosUs应用程序由Duhaime与Centaur的合作创始人Zach Rausnitz和Tom Gellatly共同开发,旨在帮助用户测试和改进他们的技能。Duhaime说大约一半的用户是医学院学生,另一半主要是医生、护士和其他医疗专业人员。

“这比为考试学习更好,考试可能有多项选择题,”Duhaime说。“他们可以看到实际病例并进行实践。”

Centaur每周从世界各地的数万人那里收集数百万个意见。杜埃姆表示,大多数人只是赚点咖啡钱,尽管该平台上赚得最多的人是一名来自东欧的医生,他大约赚了1万美元。

“人们可以在沙发上做这个,也可以在地铁上做这个,”杜埃姆说。“这并不像工作,而是有趣的。”

这种方法与传统的数据标记和人工智能内容审核形成鲜明对比,后者通常外包给资源匮乏的国家。

Centaur的方法也能产生准确的结果。在与Brigham and Women’s Hospital、Massachusetts General Hospital (MGH)和Eindhoven University of Technology的研究人员合作的一篇论文中,Centaur展示了它的众包意见与专家对肺部超声检查的标记一样可靠。与Memorial Sloan Kettering的研究人员进行的另一项研究显示,众包标记的皮肤镜图像比经验丰富的皮肤科医生的标记更准确。除了图像,Centaur的平台还可以处理视频、音频、来自研究论文或医生与患者之间的匿名对话的文本,以及脑电图(EEG)和心电图(ECG)的波形。

寻找专家

Centaur发现最好的表现者来自出人意料的地方。2021年,为了收集关于脑电图模式的专家意见,研究人员通过DiagnosUs应用程序在一次会议上举办了一场比赛,参赛者包括大约50位拥有10年以上经验的癫痫学专家。组织者制作了一件定制衬衫送给比赛的获胜者,他们认为获胜者会出席会议。

但当结果出来时,加纳的两名医学生Jeffery Danquah和Andrews Gyabaah击败了在场的所有人。排名最高的与会者排名第九。

“起初我只是为了赚钱而做这个,但后来我意识到它实际上对我帮助很大,”Gyabaah后来告诉Centaur的团队。“在诊所里,有时我意识到我比其他人做得更好,这是因为我在DiagnosUs应用程序上学到的东西。”

随着人工智能继续改变工作的性质,杜埃姆认为Centaur Labs将被用作对AI模型的持续检查。

“现在我们主要帮助人们训练算法,但我认为我们将越来越多地用于监控算法,并与算法结合使用,基本上作为一系列任务中的人类环节,”杜埃姆说。“你可以把我们看作是训练AI的一种方式,而更多地是作为整个生命周期的一部分,在价值链的不同环节提供对模型输出的反馈或监控模型。”

杜埃姆认为人类和AI算法的工作将日益融合,并认为Centaur Labs在这个未来中具有重要的角色。

“不仅仅是训练算法,部署算法,”杜埃姆说。“相反,整个经济中将存在这些数字化装配线,在价值链的不同位置需要随需应变的专家人类判断。”