Google DeepMind推出一种新的AI工具,可以对7100万个“错义”突变的影响进行分类
Google DeepMind发布新AI工具,分类7100万个“错义”突变影响
人类遗传学面临的最大挑战可以说是人类基因组的复杂性以及对健康和疾病有贡献的大量遗传因素的多样性。人类基因组由30亿个碱基对组成,其中不仅包含编码蛋白质的基因,还包括在基因调控和功能中起关键作用的非编码区域。理解这些元素及其相互作用的过程是一项巨大的任务。
知道与疾病相关的遗传变异只是一个开始。理解这些变异的功能后果,它们与其他基因的相互作用以及它们在疾病病理学中的作用是一项复杂且资源密集的任务。分析高测序技术生成的大量遗传数据需要先进的计算工具和基础设施。数据存储、共享和分析带来了重大的后勤挑战。
Google DeepMind的研究人员开发了一个名为AlphaMissense的新AI模型,并使用它构建了一个AlphaMissense目录。该目录包含大约7100万个可能的错义变异的89%,分为致病或良性两类。错义变异是一种遗传突变,导致DNA序列中的单个核苷酸替换。核苷酸是DNA的组成单元,并按特定顺序排列。这个序列保存了生物体的基本遗传信息和蛋白质结构。一个人平均携带超过9000个错义变异。
- 解锁电池优化:机器学习和纳米级X射线显微镜技术如何改变锂电池
- 实现Python堆栈:函数,方法,示例等
- 这篇由微软和清华大学进行的人工智能研究介绍了EvoPrompt:一种新颖的人工智能框架,用于自动离散提示优化,连接LLMs和进化算法
这些分类的错义变异帮助我们了解哪些蛋白质变化导致疾病。他们目前的模型是基于他们之前成功的模型AlphaFold的数据进行训练的,该模型预测了几乎所有已知蛋白质的结构。然而,AlphaMissense只对蛋白质序列和变异的结构上下文进行分类,生成介于0和1之间的分数。分数1表示结构极有可能是致病体。对于给定的序列,分数被分析以选择分类变异的阈值。
AlphaMissense在所有其他计算方法和模型上表现出色。他们的模型也是预测实验结果最准确的方法,反映了与测量致病性的不同方法的一致性。使用这个模型,用户可以一次获取数千个蛋白质的结果预览,这有助于优先分配资源并加速研究领域。在人类中出现的400多万个错义变异中,只有2%被专家注释为致病或良性,大约占7100万个可能的错义变异的0.1%。
值得注意的是,人类遗传学正在迅速发展,技术、数据分析和我们对遗传机制的理解的进步不断应对这些挑战。尽管这些挑战很大,但它们也为通过遗传研究改善人类健康和个性化医学提供了令人兴奋的机会。解读各种生物体的基因组也提供了进化的见解。