Jay Mishra,Astera Software的首席运营官 – 访谈系列

Jay Mishra,Astera Software的首席运营官

Jay Mishra是Astera Software的首席运营官(COO),Astera Software是一家快速发展的企业级数据解决方案提供商。他们通过一套用户友好且高性能的数据提取、数据质量、数据集成、数据仓库和电子数据交换解决方案帮助企业用户弥合数据到洞察力的差距,这些解决方案被中型和财富500公司在各个行业中使用。

你最初是如何被计算机科学吸引的?

我有数学背景。事实上,我本科学的是数学和计算机科学。从一开始,我就对数学着迷,它是逻辑和数学的延伸,进入计算机科学。这就是我得到本科教育的方式。然后,我发现计算机科学中的某些领域非常有吸引力,比如算法的工作方式,高级算法。我想在这个领域做专业化,这就是我取得计算机科学硕士学位并专攻算法的原因。从那以后,我与计算机科学的关系非常密切,我仍然保持着对该领域的最新动态的关注。

您目前是Astera的COO,您能与我们分享一下您日常工作的职责是什么吗?

我的官方职称是COO。我们正处于增长模式,但我们已经建立了产品很长时间了,我从一开始就参与其中,涉及到公司的各个不同领域,包括构建实际编码产品,确保功能符合客户要求,与客户紧密合作以及销售和市场营销等。这是它的延伸。

从一开始我就在各个领域都有参与,而且现在还包括其他责任,例如确保公司达到其收入目标,并且我们正在增加正确的功能和正确的产品来扩大我们的市场。除了构建和推向市场的核心职责外,还有一些额外的责任。

对于对这个术语不熟悉的读者来说,什么是数据仓库?

数据仓库是一种用于将所有企业数据汇总在一起的架构模式,使您可以从一个地方生成任何类型的分析、报表或仪表盘,以呈现业务的真实状况,并预测未来业务的走向。为了满足这一需求,您需要以某种方式将数据整合在一起,这种架构称为数据仓库。

实际上,这个术语是从现实生活中的仓库中借用的,您将产品放入其中,并对其进行组织以存储数据,但当涉及到数据世界时,您需要将数据从各种来源带入。您从生产数据、网站、客户、销售和市场营销、财务部门、人力资源部门等地带来了所有的数据,将其汇总到一个地方,这就是所谓的数据仓库,并且以一种特定的方式进行设计,以便报表特别是基于时间轴的报表变得更加容易。这是数据仓库的核心目的。

数据仓库领域目前的一些主要趋势是什么?

在过去的20-25年里,数据仓库发展了很多。大约10年前,自动化数据仓库开始出现,即使用软件产品构建数据模型、构建数据仓库并对其进行填充,并且在最近的过去2到3年中加速发展,重点是自动化。我们已经知道了模式-这些模式已经存在很长时间,而且模式是重复的。有很多重复的任务,自动化的目标是帮助用户在重复的任务上节省时间。他们不必花费时间重复做类似的任务,因为模式已经定义好了,您可以使用自动化工具来处理,这会减少在构建和维护数据仓库上所需的时间和资源。自动化是过去几年的一个重要趋势,从数据仓库的设计到构建、加载和维护,所有这些都可以自动化。

我们的产品是能够完全自动化的产品,包括ETL流水线、数据建模、自动加载数据到星型模式或数据墙,并使用CDC进行维护。这是最近的一个主要趋势,最近一个最新的趋势是在自动化中增加人工智能,使用特定的生成式人工智能来使自动化更加完善。您可以使用人工智能来配置数据仓库的构件、流水线和用户必须做出决策的一些点,以及他们不应该选择的方式。这些决策点可以通过人工智能来满足,我们在最近一年左右看到了人工智能和数据仓库之间的很多交叉。

企业在数据仓库开发中应考虑的四个基本原则是什么?

  • 您需要什么类型的数据?
  • 架构模式
  • 工具集
  • 团队

为什么公司需要现代数据堆栈?

这取决于我们如何定义现代化,而这在年、月,甚至是现在的日子中都在不断变化。我会说,现代的工具集是根据我们正在接收的新时代数据的要求设计的,这些要求在过去几年已经发生了变化,当然,体量也发生了变化。我们现在有了大数据,甚至是由您的电子商务网站、生产数据库以及流向业务各个领域的数据产生的数据,数据的性质也在发生变化。以前大多数是结构化数据,现在涌入了大量的非结构化数据,因此这种变化以及数据的速度也在发生变化。

数据生成的速度有多快,数据生成后多快能够被使用,以及数据的性质在变化,我们必须不断关注现代化,不断关注能够应对这些变化的工具集。

新的数据堆栈或现代数据堆栈旨在处理数据结构和速度的各种变化,并且能够应对过去几年出现的新的架构模式,并且基本上解决了数据世界中正在发生的发展。

如果您想最好地利用您的数据,您必须考虑现代化您的数据堆栈,这是跟上新的数据挑战的唯一方法。

其次,我们发现有时创建解决方案是一种打破它的工作方式,但数据本身的性质是不断变化的,您必须持续关注它,并且我们必须看到数据中正在发生的变化,并对此作出响应,现有的解决方案可能无法做到这一点,您必须继续关注进展,并不断增加。

行业中存在的一些当前数据管理挑战是什么?

  • 速度
  • 不同的数据格式
  • 数据发布

Astera如何将人工智能整合到客户工作流程中的一些方式?

  • 使用通用AI提高可用性
  • 在RM和其他模块中整合人工智能
  • AI功能作为工具集

大公司在数据管理中利用人工智能和机器学习模型的一些最佳实践是什么?

大型语言模型领域仍在不断发展,尽管发展非常迅速,我们是这一领域的首批用户,并尝试使用生成式人工智能来提高我们自己产品的可用性并满足特定的用例。我们内部使用Open AI,现在也使用Lama和其他大型语言模型进行低秩适应。

通过对这些大型语言模型进行微调,我们能够部署小型模型,例如8到13亿参数的模型,并将其部署在本地。这对我们来说非常有效,并且我们建议您尝试不同的基础模型和不同的配置,看看哪种对您有用。

我们实际上创建了这样一个配置,您可以从一个大型选项列表中进行选择。因此,基本上就是开发人员或数据科学家在使用开源库并进行自己的数据科学之旅时所拥有的所有选项。我们将所有这些选项都纳入了我们的产品中。

您现在可以尝试不同的大型语言模型和不同的配置,进行测试、部署并查看哪种对您的场景有意义。根据我们的经验,肯定建议对模型进行微调并在本地部署,而不是依赖API。因为API存在延迟,对于以数据为中心的产品来说,这是不可接受的。特别是在处理大量数据时,这就成为了一个问题。

我们建议尝试使用开源库中的所有可能选项,并尝试将微调模型保持本地化并针对您的场景进行定制。

Astera为什么是比竞争平台更优秀的解决方案?

  • 可用性(无需编码和拖放界面以及使用人工智能提高的可用性)
  • 自动化
  • 统一且端到端的数据管理平台

感谢您进行了这次精彩的访谈,希望想要了解更多的读者可以访问 Astera Software。