「Amr Nour-Eldin, LXT技术副总裁 – 专访系列」
「阿姆尔·努尔·埃尔丁,LXT技术副总裁——专访系列」
Amr Nour-Eldin(阿姆尔·努尔-艾尔丁)是LXT(LXT公司)的技术副总裁。阿姆尔是一位拥有16年专业经验的博士研究科学家,专注于语音/音频处理和机器学习在自动语音识别(ASR)领域的应用,尤其近年来专注于流式端到端语音识别的深度学习技术。
LXT(LXT公司)是AI训练数据领域新兴领导者,为全球组织提供智能技术的支持。与国际贡献者网络合作,LXT公司以企业需要的速度、规模和敏捷性收集和注释多种模态数据。其全球专业知识涵盖了145个国家和1000多种语言环境。
你在麦吉尔大学攻读信号处理博士学位,是什么最初引起了你对这个领域的兴趣?
我一直想要学习工程学,而且对自然科学有着广泛的兴趣,但更加倾向于数学和物理。我一直试图弄清楚自然界是如何运行的,以及如何将这种理解应用于创造技术。高中毕业后,我有机会选择医学或其他职业,但我选择了工程学,因为它在我看来完美结合了我最关心的两个领域:数学和物理,既涉及理论又涉及应用。一旦我选择了工程学,就有很多潜在的方向可以选择,如机械工程、土木工程等等。但我特别选择了电气工程,因为它与我一直以来都感到有挑战性、喜欢的数学和物理问题最为接近,并且它是现代技术的基础,而技术一直是我所追求的。
在电气工程中,有多种专业可以选择,一般分为两大类:电信与信号处理以及电力与电气工程。当我在这两者之间选择时,我选择了电信与信号处理,因为它更接近于通过物理和方程式描述自然界的方式。我们正在讨论信号,无论是音频、图像还是视频;了解我们如何交流以及我们的感官如何感知,并如何以数学的方式表示这些信息,以便我们能够利用这些知识来创建和改进技术。
你在麦吉尔大学的研究是关于人工带宽扩展(BWE)的信息论方面,请谈谈相关研究。
完成学士学位后,我希望在学术上继续深入研究信号处理领域。作为物理学硕士学位的一部分,我在光子学方面学习了一年,但后来决定返回工程学,攻读音频和语音信号处理的硕士学位,重点是语音识别。当我决定攻读博士学位时,我希望将领域扩展到通用音频和语音处理以及与之密切相关的机器学习和信息论领域,而不仅仅专注于语音识别应用。
我的博士研究主题是带宽扩展窄带语音。窄带语音指的是传统电话语音。语音的频率范围延伸到约20千赫兹,但大部分信息内容集中在4千赫兹以下。带宽扩展指的是人工将语音内容从3.4千赫兹(传统电话的上限频率)扩展到8千赫兹或更高。为了更好地重构出仅有的窄带语音中缺失的高频内容,需要首先量化两个频带中语音内容之间的互信息,然后利用该信息来训练一个模型,该模型学习到了可用窄带语音和缺失高频内容之间的关系。量化和表示这种共享的“互信息”是信息论的应用领域。信息论是研究量化和表示任何信号中信息的学科。因此,我的研究目标是将信息论应用于改进语音的人工带宽扩展。因此,我的博士研究是一项跨学科研究活动,在其中将信号处理与信息论和机器学习相结合。
您曾在Nuance Communications(现在是微软的一部分)担任首席语音科学家超过16年,在这段经历中,你获得了哪些重要的领悟?
从我的角度来看,最重要的好处是我一直在从事信号处理和机器学习的最前沿技术,并将该技术应用于真实世界的应用中。我有机会将这些技术应用于多个领域的交互式AI产品,包括企业、医疗保健、汽车和移动设备等。一些具体的应用包括虚拟助手、交互式语音应答、语音转文字等,在这些应用中适当地表示和转录至关重要,例如医疗保健中的医生/患者互动。在这16年的过程中,我很幸运地亲眼目睹并参与了会话式AI的演变,从使用隐马尔可夫模型的统计建模时代开始,逐渐过渡到深度学习的主导地位,直到现在,深度学习几乎在AI的所有方面都占主导地位,包括生成式AI以及传统的预测或判别式AI。从这段经历中的另一个关键领悟是数据在AI模型能力和性能方面的关键作用,无论是数量还是质量。
你已经在诸如IEEE等享有盛誉的出版物上发表了数篇论文。在你看来,你发表的最具突破性的论文是哪篇,为什么它很重要?
根据Google Scholar的引用次数来看,最有影响力的论文应该是2008年发表的一篇名为“基于梅尔频率倒谱系数的窄带语音带宽扩展”。从高层次上看,这篇论文的重点是关于如何利用在自动语音识别(ASR)领域广泛使用的特征表示——梅尔频率倒谱系数,来重建语音内容。
然而,在我看来,更具创新性的论文是引用次数第二多的一篇2011年的论文,题为“基于高斯混合模型框架的窄带语音带宽扩展的基于记忆的近似”。在那个工作中,我提出了一种新的统计建模技术,它能够在语音中融入时序信息。这种技术的优势在于,它允许用最少的额外复杂性对语音的长期信息进行建模,并以流式或实时方式生成宽带语音。
2023年6月,你被LXT聘为技术副总裁,是什么吸引了你来到这个职位?
在加入LXT之前,我在学术和职业经历中一直直接与数据打交道。实际上,正如我之前提到的那样,从我在语音科学和机器学习方面的工作中得出的一个重要经验教训是,数据在AI模型生命周期中起着至关重要的作用。拥有足够质量和正确格式的数据对于最先进的基于深度学习的AI的成功非常重要,并且仍然如此。因此,当我正处于职业生涯阶段,寻求一个我可以学习、拓宽技能,并利用我在语音和AI方面的经验产生最大影响的类似创业公司环境时,我有幸有机会加入LXT。这是一个完美的匹配。LXT不仅是一个人工智能数据提供商,以惊人而持续的速度增长,而且我还认为它在AI知识和客户规模以及多样性方面的增长阶段非常适当,因此在AI和AI数据类型方面也是如此。我乐于加入并协助其发展之旅;在经历了那么多年作为一个AI数据科学家用户之后,我将带来数据最终用户的视角,有着很大的影响力。
你在LXT的一天是什么样的?
我平常的一天开始于研究最新的有关某个主题的研究,最近的研究主题主要集中在生成式AI以及如何将其应用于我们客户的需求上。幸运的是,我有一个非常优秀的团队,他们非常擅长为我们客户的专业化AI数据需求创建和定制解决方案。因此,我与他们密切合作来制定相应的议程。
当然,还有战略性的年度和季度规划,将战略目标分解为团队个人目标,并及时跟进这些计划的发展。至于我们正在进行的功能开发,通常有两个技术方向。一个是确保我们有合适的组件来交付我们当前和新接收的项目的最佳结果。另一个方向是改进和扩展我们的技术能力,重点是将机器学习纳入其中。
你在LXT工作的机器学习算法类型有哪些?
人工智能解决方案正在改变各行各业的企业,我们很荣幸能够为其提供训练机器学习算法所需的高质量数据。我们的客户涉及各种应用领域,包括增强和虚拟现实、计算机视觉、对话式人工智能、生成式人工智能、搜索相关性、语音和自然语言处理等。我们致力于通过在每种语言、文化和模态中生成和增强数据,为未来的机器学习算法和技术提供动力。
在内部,我们还在运用机器学习来改进和优化我们的内部流程,从自动化我们的数据质量验证到在我们处理的所有数据模态上启用人机协同的标注模型。
在英语和特定的白人男性方面,语音和音频处理正迅速接近完美。您预计需要多长时间才能在所有语言、性别和种族之间形成公平竞争的场景?
这是一个复杂的问题,取决于许多因素,包括经济、政治、社会和技术等等。但显而易见的是,英语的普及是推动人工智能发展到现在的原因。因此,要实现一个公平竞争的环境,真正取决于不同种族和人口数据在网上的增长速度,而增长的速度将决定我们何时达到这个目标。
然而,LXT和类似公司在推动我们走向更加公平竞争的方面能发挥很大作用。只要对于较少代表性的语言、性别和种族的数据难以获得或根本不可获得,这种变化就会变得更加缓慢。但我们正在努力尽自己的一份力量。作为在超过1,000个语言区域提供覆盖,并拥有在145个国家的经验的机构,LXT帮助更多语言数据的获取成为可能。
LXT对于如何加快不同客户的人工智能项目有何愿景?
LXT在 AI 领域的目标是提供数据解决方案,实现高效、准确和快速的 AI 开发。通过我们在 AI 数据领域的12年经验,我们不仅积累了关于客户在数据方面各个方面需求的丰富专业知识,而且还不断优化我们的流程,以在最快的速度和最佳价格点上交付高质量的数据。正因为我们对提供客户最佳 AI 数据质量、效率和定价的坚定承诺,我们已经成为值得信赖的 AI 数据合作伙伴,这得益于我们重复的客户不断返回 LXT 寻求他们日益增长和发展的 AI 数据需求。我的愿景是巩固、改进和扩大 LXT 在我们处理的所有数据模态以及我们现在服务的所有类型的 AI 开发上的“样式”,包括生成型 AI。实现这一目标主要围绕着战略性地扩展我们自己的机器学习和数据科学能力,无论是在技术还是资源方面。
感谢进行这次精彩的采访,希望想了解更多的读者可以访问 LXT。