席尔公司首席数据官Serafim Batzoglou博士-访谈系列
席尔公司首席数据官Serafim Batzoglou博士-访谈系列
Serafim Batzoglou是Seer的首席数据官。在加入Seer之前,Serafim担任Insitro的首席数据官,领导机器学习和数据科学在他们的药物发现方法中的应用。在加入Insitro之前,他担任Illumina的应用与计算生物学副总裁,领导人类健康中使基因组数据更易于理解的人工智能和分子检测技术的研究与技术开发。
最初是什么吸引您对基因组学领域产生兴趣的?
在麻省理工学院攻读计算机科学博士学位时,我开始对计算生物学领域产生兴趣,当时我参加了Bonnie Berger和David Gifford教授的课程。人类基因组计划在我的博士期间取得了进展。麻省理工学院的基因组中心负责人Eric Lander成为了我的博士共同导师,并让我参与了该项目。受人类基因组计划的启发,我研究了人类和小鼠DNA的全基因组组装和比较基因组学。
之后,我作为斯坦福大学计算机科学系的教职人员工作了15年,并有幸指导了约30名才华横溢的博士研究生以及许多博士后研究员和本科生。我的团队专注于开发算法、机器学习和软件工具,用于分析大规模基因组和生物分子数据。2016年,我离开斯坦福大学,加入Illumina领导一个研究和技术开发团队。从那时起,我一直享受在行业中领导研发团队的工作。相比学术界,我发现行业的特点是团队合作、商业方面的工作以及对社会的直接影响。在我的职业生涯中,我在创新型公司工作过:2009年我共同创办了DNAnexus,之后在Illumina、Insitro和现在的Seer工作。在生物技术领域,计算和机器学习在技术开发、数据获取、生物数据解释和转化为人类健康方面都是必不可少的。
在过去的20年中,人类基因组测序变得更加便宜和快速。这导致了基因组测序市场的巨大增长和在生命科学行业的广泛应用。我们现在正处于拥有足够规模的人群基因组、多组学和表型数据的关键时刻,这些数据可以从根本上改变医疗保健,包括预防、诊断、治疗和药物发现。通过对基因组数据进行计算分析,我们可以越来越多地发现疾病的分子基础,患者有机会接受个性化和靶向治疗,尤其是在癌症和罕见遗传病领域。除了在医学上的明显用途外,机器学习结合基因组信息还可以让我们了解生活的其他方面,如我们的家族谱系和营养。未来几年将看到个性化、数据驱动的医疗保健的普及,首先针对特定人群,如罕见病患者,然后逐渐面向广大公众。
在您现任的职责之前,您曾担任Insitro的首席数据官,领导机器学习在药物发现中的应用。在这段时间内,您对机器学习如何加速药物发现有哪些关键体会?
传统的药物发现和开发“试错”范式存在效率低下和时间周期非常长的问题。一种药物要上市可能需要耗资10亿美元以上,时间长达十年。通过将机器学习应用于这些工作,我们可以在多个环节上大大降低成本和时间。其中一环是目标识别,通过大规模基因和化学扰动以及成像和功能基因组学等表型测定,可以通过机器学习识别出调节疾病表型或使疾病细胞状态恢复到更健康状态的基因或一组基因。另一个环节是化合物识别和优化,通过机器学习驱动的计算预测和体外筛选,可以设计出小分子或其他药物形式,并优化药物的溶解度、渗透性、特异性和无毒性等所需性质。最困难且最重要的方面可能是人类的转化。在这里,选择正确的模型——诱导多能干细胞衍生的细胞系与原发患者细胞系以及组织样本与动物模型之间的权衡——对于正确的疾病具有非常重要的一系列折衷,最终反映在产生的数据加上机器学习对患者的转化能力上。
Seer Bio正在开创解码蛋白质组的新方法,以改善人类健康。对于对这个术语不熟悉的读者来说,蛋白质组是什么?
蛋白质组是一个生物体随着时间的推移和对环境、营养和健康状况的响应而产生或修改的蛋白质集合。蛋白质组学是研究给定细胞类型或组织样本内的蛋白质组的学科。人类或其他生物的基因组是静态的:除了体细胞突变这个重要例外,出生时的基因组就是整个生命中都一样,每个细胞中都完全相同。蛋白质组是动态的,它在年、天甚至分钟的时间尺度内发生变化。因此,蛋白质组比基因组更贴近表型和最终的健康状态,因此对于监测健康和理解疾病更具信息价值。
在Seer,我们开发了一种新的访问蛋白质组的方式,能够更深入地了解复杂样品中的蛋白质和蛋白质形式,比如血浆。血浆是一种高度可访问的样品,但遗憾的是,迄今为止,它对传统的质谱蛋白质组学构成了巨大的挑战。
Seer的Proteograph™平台是什么,它如何提供对蛋白质组的新视角?
Seer的Proteograph平台利用一套专有的工程纳米颗粒库,通过简单、快速和自动化的工作流,实现对蛋白质组的深入和可扩展的探索。
Proteograph平台在探测血浆和其他复杂样品方面表现出色,这些样品在蛋白质丰度上存在很大的动态范围——样品中各种蛋白质的丰度相差几个数量级,而传统的质谱蛋白质组学方法无法检测到蛋白质组的低丰度部分。Seer的纳米颗粒具有可调节的物理化学性质,以无偏见的方式聚集动态范围内的蛋白质。在典型的血浆样品中,我们的技术使得探测到的蛋白质比在不使用Proteograph的情况下处理纯血浆时多出5倍至8倍。因此,从样品制备到仪器设备再到数据分析,我们的Proteograph产品套件帮助科学家找到可能无法检测到的蛋白质组疾病标志。我们喜欢说,在Seer,我们正在为蛋白质组打开一扇新的大门。
此外,我们还让科学家能够轻松进行大规模的蛋白质组学研究。蛋白质组学是将基因组数据与蛋白质组学数据相结合,以识别和量化蛋白质变体,将基因组变体与蛋白质丰度水平联系起来,最终将基因组与蛋白质组与表型和疾病联系起来,并开始解开与疾病相关的原因和下游遗传途径的纷争。
能否讨论一下Seer Bio目前使用的一些机器学习技术?
Seer在技术开发到下游数据分析的各个步骤都在利用机器学习。这些步骤包括:(1)设计我们的专有纳米颗粒,其中机器学习帮助我们确定哪些物理化学性质和纳米颗粒的组合适用于特定的产品线和分析方法;(2)从质谱仪器产生的读数数据中检测和量化肽段、蛋白质、变体和蛋白质形式;(3)在大规模人群中进行下游蛋白质组学和蛋白质组学分析。
去年,我们在《先进材料》杂志上发表了一篇论文,结合了蛋白质组学方法、纳米工程和机器学习,用于改进对蛋白质包被形成机制的理解。这篇论文揭示了纳米-生物相互作用,并为Seer在开发改进的纳米颗粒和产品方面提供了信息。
除了纳米颗粒开发,我们还开发了新的算法来识别变异肽段和翻译后修饰(PTM)。我们最近开发了一种检测蛋白质定量性状位点(pQTLs)的方法,该方法对蛋白质变体具有鲁棒性,这是亲和质谱学的一个已知混淆因素。我们正在将这项工作扩展到使用基于深度学习的全新测序方法,直接从原始光谱中识别这些肽段,以允许在不增加光谱库大小的情况下进行搜索。
我们的团队还在开发方法,使得没有深入机器学习专业知识的科学家能够在他们的发现工作中优化和利用机器学习模型。这通过基于AutoML工具的Seer ML框架实现,该框架允许通过贝叶斯优化进行高效的超参数调优。
最后,我们正在开发方法来减少批次效应,并通过对测量的定量值进行建模,以最大程度地提高质谱读数的定量准确性,例如蛋白质组内肽段间强度值的相关性。
LLM(语言模型)经常出现幻觉问题,有哪些解决方案可以防止或减轻这种问题?
LLM是生成方法,它们接收一个大型语料库并进行训练以生成类似的文本。它们捕捉训练数据的基本统计属性,从简单的局部属性(例如某些单词或标记的组合出现的频率)到模拟理解上下文和含义的更高级别属性。
然而,LLM的主要训练目标并不是正确性。通过强化学习与人类反馈(RLHF)和其他技术的结合,可以训练它们具备一些理想的性质,包括正确性,但并不完全成功。给定一个提示,LLM会生成最接近训练数据统计属性的文本。通常情况下,这个文本也是正确的。例如,如果问“亚历山大大帝是什么时候出生的”,正确答案是公元前356年(或公元前356年),LLM很可能会给出这个答案,因为在训练数据中,亚历山大大帝的出生经常出现这个值。然而,当被问到“瑞金内拉女帝是什么时候出生的”,这是一个在训练语料库中不存在的虚构角色,LLM很可能会产生幻觉并编写她出生的故事。同样,当被问及LLM可能无法找到正确答案的问题时(无论是因为正确答案不存在还是出于其他统计目的),它很可能会产生幻觉并回答好像它知道一样。这就产生了幻觉问题,这对于严肃的应用程序来说是一个明显的问题,比如“如何治疗某种癌症”。
目前,关于幻觉还没有完美的解决方案。它们与LLM的设计密切相关。其中一个部分解决方案是适当的提示,例如要求LLM“仔细思考,逐步进行”等等。这增加了LLM不编造故事的可能性。正在开发的一种更复杂的方法是使用知识图谱。知识图谱提供结构化数据:知识图谱中的实体以预定义的逻辑方式与其他实体相连接。当然,为给定领域构建知识图谱是一项具有挑战性但可行的任务,可以通过自动化和统计方法以及策划来完成。通过内置的知识图谱,LLM可以将其生成的陈述与已知事实的结构化集合进行交叉验证,并且可以受到约束,不生成与知识图谱相矛盾或不受其支持的陈述。
由于幻觉的基本问题,并且可以说是由于LLM缺乏足够的推理和判断能力,LLM在医学诊断或法律咨询等严肃应用中仍然无法取代人类专家。然而,它们可以极大地提升这些领域人类专家的效率和能力。
您对以数据而非假设引导生物学的未来有何愿景?
传统的假设驱动方法涉及研究人员发现模式、制定假设、进行实验或研究以测试假设,然后根据数据进行理论改进,这一方法正在被以数据驱动建模为基础的新范式所取代。
在这种新兴范式中,研究人员从无假设的大规模数据生成开始。然后,他们使用机器学习模型(如LLM)进行训练,目标是在许多下游任务中准确重建遮挡数据、进行强大的回归或分类性能。一旦机器学习模型能够准确预测数据,并且实现与实验重复之间相似度可比的保真度,研究人员就可以询问模型以从生物系统中提取洞察,并理解其中的基本生物原理。
LLM在建模生物分子数据方面表现出色,并且旨在推动从假设驱动到数据驱动的生物学发现的转变。这种转变在未来10年内会越来越明显,并且可以实现对生物分子系统的准确建模,超越人类能力的粒度。
这对疾病诊断和药物发现有什么潜在影响?
我相信LLM和生成式人工智能将对生命科学行业产生重大变革。其中一个将从LLM中获益巨大的领域是临床诊断,特别是罕见的、难以诊断的疾病和癌症亚型。我们可以利用大量详细的患者信息,包括基因组概况、治疗反应、医疗记录和家族史,以实现准确和及时的诊断。如果我们能找到一种将所有这些数据进行编制,使其易于获取,并且不被个体健康组织隔离的方式,我们可以大大提高诊断精度。这并不意味着机器学习模型,包括LLM,将能够在诊断中自主操作。由于技术限制,在可预见的未来,它们不会是自主的,而是会增强人类专家的能力。它们将成为帮助医生在比以往更短的时间内提供深入了解的评估和诊断的强大工具,并以正确的方式记录和传达他们的诊断结果,无论是向患者还是通过机器学习系统连接的整个医疗服务网络。
该行业已经利用机器学习进行药物发现和开发,并宣称与传统范式相比,机器学习可以降低成本和时间。LLM进一步丰富了可用的工具箱,并为建模大规模生物分子数据(包括基因组、蛋白质组、功能基因组和表观基因组数据、单细胞数据等)提供了出色的框架。在可预见的未来,基础LLM无疑将在所有这些数据模态和收集了基因组、蛋白质组和健康信息的大型群体之间进行连接。这样的LLM将有助于产生有前途的药物靶点,确定与生物功能和疾病相关的蛋白质活动区域,或者提供可以通过小分子化合物或其他药物模式以特定方式调节的通路和更复杂的细胞功能。我们还可以利用LLM根据遗传易感性确定药物反应者和非反应者,或者在其他疾病指标中重新使用药物。许多现有的创新型基于人工智能的药物发现公司无疑已经开始思考并朝着这个方向进行开发,我们应该期待看到更多类似的公司的形成,以及旨在在人类健康和药物发现领域部署LLM的公共努力。
感谢您的详细访谈,希望想了解更多信息的读者可以访问Seer。