MIT研究人员推出了MechGPT:一种基于语言的先驱,桥接了力学和材料建模的尺度、学科和模态

MIT研究人员推出了MechGPT:基于语言的力学和材料建模尺度、学科和模态的先驱

研究者们面临着材料科学领域内一个艰巨的挑战 – 从密集的科学文本中高效蒸馏出重要的见解。这个复杂的过程涉及到导航复杂的内容,并生成简洁的问题答案对,概括了材料的核心。复杂性在于从密集的科学文本中提取关键信息的重大任务,需要研究者制定有意义的问题答案对以捕捉材料的本质。

当前这个领域内的方法学通常依赖于通用的语言模型进行信息提取。然而,这些方法需要对文本进行细化处理,并准确地融入方程式。作为回应,MIT的研究团队引入了MechGPT,这是一种新颖的以预训练语言模型为基础的模型。这种创新的方法采用了两步过程,利用一个通用的语言模型来形成有深度的问题答案对。MechGPT在提取之外,还增强了关键事实的清晰度。

MechGPT的旅程始于在Hugging Face生态系统中运用PyTorch进行的精细训练过程。基于Llama 2 transformer架构,该模型拥有40个transformer层,并利用旋转的位置嵌入来支持更长的上下文长度。训练过程中采用了分页32位AdamW优化器,损失值可达到0.05左右。研究人员在微调过程中引入了低秩自适应(LoRA)来增强模型的能力。这涉及到集成额外的可训练层,同时冻结原始预训练模型,防止模型擦除其初步知识库。结果是增强的内存效率和加速的训练吞吐量。

除了拥有130亿参数的基础MechGPT模型外,研究人员还深入研究了训练两个更加庞大的模型,MechGPT-70b和MechGPT-70b-XL。前者是Meta / Llama 2 70聊天模型的细调版本,后者集成了动态缩放的RoPE,用于处理超过10,000个标记的大文本上下文。

MechGPT内的抽样遵循自回归原则,采用因果遮盖来生成序列。这确保模型根据前面的元素对每个元素进行预测,防止它考虑未来的词汇。实现中采用了温度缩放来调节模型的注意力,引入了不确定性温度的概念。

总的来说,MechGPT在从材料科学领域的科学文本中提取知识方面表现出极大的潜力。该模型的训练过程丰富了创新技术,如LoRA和4位量化,展示了其在传统语言模型之外的应用潜力。MechGPT在聊天接口中的具体实现为用户提供了访问Google学术的桥梁,为未来的扩展铺平了道路。该研究将MechGPT引入材料科学,将其定位为在专业领域内推动语言模型边界的开拓者,作为有价值的资产。在研究团队不断进取的同时,MechGPT作为语言模型动态演进的证明,开启了知识提取的新领域。