曼彻斯特大学的研究人员引入了MentalLLaMA:首个可读性精神健康分析开源LLM系列,并具备遵循指示的能力
曼彻斯特大学研究人员引入MentalLLaMA:首个具备可读性和精神健康分析能力的开源LLM系列,可按指示操作
创伤后应激障碍(PTSD)和其他心理健康问题全球公共健康产生了影响。由于社会污名,许多人不会及时寻求心理援助,这可能会产生灾难性的后果。社交媒体已经通过在线技术的进步融入人们的日常生活。由于许多可能患有心理健康问题的人使用Twitter和Reddit等网站表达负面情绪和压力,社交媒体文本是进行心理健康分析和可能进行早期干预的重要来源。然而,社交媒体信息的数量呈指数级增长,使得手动分析帖子不可行。因此,许多研究使用自然语言处理(NLP)方法来自动分析社交媒体的心理健康问题。
以往的自然语言处理(NLP)方法通常将心理健康的社交媒体分析建模为文本分类问题,其中区分性的领域特定预训练语言模型(PLM)达到了尖端性能。它们的一个主要缺点是这些算法以黑匣子方式提供预测,解释性很少,这在实际使用中大大降低了其可靠性。最近的研究评估了最新的大型语言模型(LLMs)的效果,包括ChatGPT2和LLaMA,以识别多种心理健康疾病,并使用Chain-of-Thought(CoT)方法为其选择提供深入的解释。他们还进行了广泛的人员测试,以证明ChatGPT可以像人类一样为其正确分类提供解释,从而证明了它提高心理健康分析的可读性的潜力。
然而,ChatGPT目前在零射击或少射击学习环境中无法与最先进的监督算法的性能匹配,这限制了它在实际环境中的应用。一种实用的方法是通过在有限的数据上对基础LLM进行微调,将其与目标领域进行对齐。为了优化LLM的性能,良好的训练数据是必要的。虽然一些用于研究社交媒体心理健康的数据集包含简要的非正式内容,但仍然缺乏提供检测结果的详尽可靠解释的开源数据。这主要是由于研究主题的敏感性和由专业人士撰写解释的高费用导致的。
其次,为可理解的心理健康分析提供的开源LLMs很少。但是,促使或对ChatGPT等闭源LLMs进行微调可能非常昂贵。高成本和资源缺乏需要改进相关研究社区的发展。他们创建了第一个多任务和多源可解释心理健康指导(IMHI)数据集,其中包含105K个数据样本,以弥补这些差距并允许对LLM指导进行微调和评估。首先,他们从10个现有来源收集训练数据,涵盖8个任务,例如二元心理健康检测任务,多类心理健康检测任务,心理健康原因/因素检测任务以及心理风险和健康因素检测任务。
图1展示了MentalLLaMA在各种任务中的表现,包括心理健康分析。还总结了MentalLLaMA的训练数据和基础模型。
收集的数据包括社交媒体帖子和相应的标签。其次,每个标签都有详尽的解释和注释。他们使用专家撰写的少射击问题和收集的标签来激励ChatGPT并从其回复中得到解释,借鉴了自我指导成功的经验。他们对所有获得的数据进行自动评估,以进一步保证解释的质量。在这些评估中,评估预测的准确性,标签与解释之间的对应关系以及解释的整体质量。通过来自专业人士的精心注释策略,他们还对一些收集的数据进行人工评估。
第三,他们采用一种基于规则的方法,将所有收集到的社交媒体帖子、标签和解释转化为基于指令的查询-回答对。然后利用这些对创建IMHI数据集的训练数据和评估基准。曼彻斯特大学的研究人员推出了MentalLLaMA,这是第一个具有可解释性心理健康分析指令跟随能力的开源LLM系列,基于IMHI数据集。 LLaMA2基础模型被用作训练MentalLLaMA模型的基础。他们专门调整了MentalLLaMA-7B、MentalLLaMA-chat-7B和MentalLLaMA-chat-13B模型。图1展示了MentalLLaMA出色能力的几个实例。
另外,他们全面评估了MentalLLaMA模型相对于IMHI评估标准的表现。他们通过将分类结果与尖端区分技术和其他生成式语言模型进行对比,评估了MentalLLaMA的预测准确性。根据研究结果,MentalLLaMA-chat-13B在十个测试集中有七个表现比先进水平更准确或不逊色。他们还评估了生成的解释质量。结果显示,指令定制、人类反馈的强化学习(RLHF)和模型大小的增长都可以提高解释的质量。
他们创建了第一个多任务和多来源的指令调整数据集,用于解释性心理健康分析的社交媒体,即拥有105K个样本的可解释心理健康指令(IMHI)数据集。•他们提出了MentalLLaMA,这是第一个可以按照指令进行大规模语言模型的开源模型,能够进行对心理健康的可解释分析。MentalLLaMA可以使用社交媒体数据进行心理健康分析,并能为其结论提供有力的理由。• 他们在该基准上提供了包含8个任务和10个测试集的19K个测试样本,这是第一个全面的可理解心理健康分析评估标准。评估结果和分析表明,MentalLLaMA优于目前使用的技术,未来的工作将专注于改进可理解的心理健康分析的LLMs。