麻省理工学院的这篇AI论文探索了深度学习模型在化学研究中的扩展
麻省理工学院的这篇AI论文揭示了深度学习模型在化学研究中的前沿应用' (This AI Paper from MIT Explores the Cutting-Edge Applications of Deep Learning Models in Chemical Research)
“`html
麻省理工学院的研究人员调查了大型化学语言模型的扩展行为,重点关注化学生成的预训练转换器(GPT) (ChemGPT)和图神经网络力场(GNN)。他们引入了神经扩展的概念,模型的性能通过经验扩展规律来表征,特别是在损失扩展方面,即模型参数数量、数据集大小或计算资源的幂律。该研究深入探讨了扩展大型化学模型面临的挑战和机遇,旨在为改进预训练损失的资源最佳配置提供见解。
对于化学语言建模,研究人员设计了ChemGPT,这是一种基于GPT-Neo的GPT-3风格模型,具有用于自引用的嵌入字符串(SELFIES)表示分子的标记器。该模型在PubChem的分子上进行预训练,并研究了数据集和模型规模对预训练损失的影响。
除了语言模型,该论文还介绍了图神经网络力场(GNN)用于需要分子几何和三维结构的任务。研究考虑了四种类型的GNN,从只操纵E(3)不变量的内部层模型到使用具有不断增加的物理信息的E(3)等变量的模型架构。作者在神经扩展实验中评估了这些GNN的容量,以深度和宽度来定义。
- 忽略此标题和HackAPrompt:揭示LLMs的系统性漏洞
- 飞利浦利用建立在亚马逊SageMaker上的MLOps平台加速发展人工智能医疗解决方案
- 在亚马逊SageMaker上使用LoRA对Whisper模型进行微调
为了高效处理深层化学模型的超参数优化(HPO),该论文介绍了一种称之为训练性能估计(TPE)的技术,将其从计算机视觉架构中使用的一种方法进行了调整。TPE利用训练速度,可以在不同领域和模型/数据集大小之间进行性能估计。论文详细介绍了实验设置,包括使用NVIDIA Volta V100 GPU、PyTorch和分布式数据并行加速进行模型实现和训练。
总的来说,该研究在大型化学语言模型的背景下全面探讨了神经扩展问题,考虑了生成的预训练转换器和图神经网络力场,并引入了一种高效的超参数优化方法。实验结果和见解对于理解科学深度学习应用中不同模型结构的资源效率做出了贡献。
“`