M42推出Med42:一个开放获取的临床大型语言模型(LLM),扩大对医学知识的获取

M42引进Med42:一个开放获取的临床大型语言模型(LLM),助力更广泛获取医学知识

总部位于阿布扎比的M42 Health刚刚发布了Med42,这是一个有前途的新型开放性临床大型语言模型。这个700亿参数的模型的发布是努力扩大公众获得先进人工智能能力以改变医疗的重要时刻。

Med42是在Meta的Llama-2 – 70B模型的基础上进行了优化,大幅度超越了开源医学人工智能的前身。这个模型在许多医学问答数据集上超过了OpenAI的ChatGPT 3.5,在USMLE的零点评估中达到了72%的准确率。这表明了Med42能够通过提供医学知识的易于访问,帮助临床决策。

M42 Health AI团队使用了他们庞大的人工筛选的医学文献和患者信息数据集构建了Med42。M42、Cerebras和Core42(M42的子公司)共同对Condor Galaxy 1超级计算机进行了优化。这个模型的效力也经过了莫哈默德本扎耶德人工智能大学(MBZUAI)的专家评估。

M42的Med42是一个免费、公开的临床大型语言模型(LLM),旨在让更多的医学信息向公众开放。基于LLaMA-2并拥有700亿参数,这个生成型人工智能系统可以对医疗问题提供准确的回答。

Med42最强大的一点是它的可适应性。作为一种人工智能助手,它有潜力显著改变医学判断。它可以用于根据医疗记录生成个性化的治疗方案,加速查阅海量医学资料的过程等。

作为一种有潜力改善临床决策并扩大医疗领域LLM可访问性的人工智能助手,Med42现已可供测试和评估。可能的应用示例包括:

  • 回答与健康相关的问题
  • 医疗历史概要
  • 支持医学诊断
  • 常见的健康问题

Med42的代码和权重已发布到Hugging Face,鼓励进行广泛的科学研究和合作,以促进持续发展。Med42的许可条款是基于Meta的Llama 2模型,可以供免费研究和非商业使用,同时也请考虑到在医疗领域使用人工智能所涉及的风险和义务。

关键性能指标:

  • Med42在与其他公开可用的医学LLM相比,对USMLE样本考试的准确率达到了72%。
  • 在MedQA数据集上,准确率达到了61.5%(GPT-3.5为50%)。
  • MMLU临床问题的结果一致比GPT-3.5好。

限制:

  • Med42的治疗应用目前还处于早期阶段,正在进行广泛的人体测试以确保安全。
  • 存在创造误导性或危险数据的风险。
  • 使用有偏见的数据进行训练的潜在危险。

尽管研究结果令人鼓舞,但研究人员警告称,需要进一步进行Med42的真实世界验证,才能将其应用于临床实践。可能出现的问题包括产生不准确或有害的结果,或未能解决现有训练数据的偏见。随着Med42摆脱基准,向潜在的重大患者收益迈进,M42强调了负责任的测试的重要性。

Med42展示了医学人工智能的显著发展,同时强调研究和开发过程中的道德和安全的重要性。世界各地的研究人员将能够从它的开放性发表中受益。如果经过彻底验证,像Med42这样的模型可以改善医疗决策并扩大全球范围内的治疗资源。它的发布是医疗人工智能的重要一步,但要实现其全部潜力,需要持续的开放和团队合作。