与Vikas Agrawal一起揭秘数据科学生态系统
与Vikas Agrawal一同探索数据科学生态系统
与 Oracle 分析云的资深首席数据科学家 Dr. Vikas Agrawal 一起探索人工智能的未来。在这次 数据驱动的领导力会议 中,他分享了有关数据科学问题解决、MLops 和生成式人工智能对企业解决方案的影响的见解。讨论内容包括数据科学项目中的实际方法和问题,为有志于成为数据科学家的人提供了重要建议。
与 Vikas Agrawal 的对话中的关键洞见
- 在数据科学中,专注于理解问题至关重要,并占据大部分努力。
- 在数据科学的成功概念验证 (POC) 中,不仅要考虑技术方面,还要考虑解决方案的实用性和可伸缩性。
- 与客户进行清晰沟通并设定现实期望是避免由于人工智能炒作引起的昂贵误会的关键。
- 生成式人工智能有潜力彻底改变企业解决方案,尤其是与文本和用户界面相关的领域。
- 在数据科学的职业发展中,需要扎实的数学基础和对算法的深入理解。
- 在企业环境中,确保人工智能输出的可信度和可靠性需要新的验证技术。
- 随着人工智能工具的发展,数据科学家需要技能来改进和增强这些工具,而不仅仅是运行它们。
在我们的社区频道上了解更多与领先的人工智能和数据科学专家的类似见解!
如何在数据科学中平衡技术深度与宏观视角?
在我的日常工作中,我要感谢来自各大知名机构和公司的导师们,他们让我明白技术只是达成目标的手段,而不是目标本身。关键是花大量时间来理解问题——90% 的工作量都在这里。其余的工作是寻找解决方案,通常包括研究其他人如何解决类似问题以及客户最终需求。这种方法对于将技术与业务影响相连接至关重要。
解决客户问题的方法是什么?
一旦我们确定了一个值得解决的问题,我们首先确保拥有解决问题所需的数据。然后我们评估是否存在能够在合理时间内解决问题的技术路径。即使这个路径是在几年之后,只要我们看到了一条路,我们就会进行概念验证 (POC)。这个 POC 是全面的,涉及从数据管道到端到端功能的一切,尽管在这个阶段可伸缩性不是主要关注点。目标是明确路径,了解算法、数据源和我们的目标输出的性质。
如何处理优化阶段和 ML 运维?
在成功的 POC 后,我们进入优化阶段,这是大部分工作的地方。这包括确保模型适应不同的业务流程和地理位置,并在其失效时进行自我修复。还包括确保模型能够高效重新训练和适当扩展。这个阶段非常关键,因为它将模型从概念转化为实际可部署的解决方案。
数据科学项目中最常见的陷阱是什么?
最昂贵的错误通常与人工智能炒作和沟通不畅有关。设置与客户的清晰、共同期望非常关键。通常,由于人工智能领域的热炒,客户期望很高,没有意识到前沿技术并不能总是提供他们寻求的正确答案。另一个陷阱是错误定义问题,要么未直接解决客户的问题,要么试图涉及太多内容。
你是如何在工作流程中与生成式人工智能互动的?
生成式人工智能由于对版权和知识产权污染的担忧,在大多数企业中并没有得到广泛应用。然而,我们确实利用了商业上可获得的开源材料。生成式人工智能在文本摘要、文本扩展和提供解释等领域取得了显著进展。可靠性仍然是一个挑战,我们正在探索过滤大型语言模型(LLMs)的输出的技术,以确保它们对企业使用的可靠性。
您认为生成式人工智能对企业解决方案将产生何种影响?
生成式人工智能可能对涉及到文本运行的工作流程产生最重要的影响,例如信息检索和用户界面。例如,它可以通过检索语义上相似的文本片段,显著改进企业搜索。它还可以颠覆自然语言数据库接口,使用户可以用自然语言提问并获得准确的SQL响应。
您对于今天进入数据科学领域的人有什么建议?
现在是从事数据科学的一个激动人心的时刻,但是拥有扎实的数学基础并理解你所使用的算法是至关重要的。随着人工智能工具变得更加复杂,能够增强和改进它们的能力将成为一项有价值的技能。那些能够创建新的算法或理解现有算法的复杂性的人将有很高的需求。
总结与Vikas Agrawal的对话
在这个富有洞察力的讨论中,Vikas Agrawal博士分享了在数据科学职业中成功的关键见解。从强调问题理解到应对挑战并拥抱生成式人工智能,该访谈提供了一份指南。渴望成为数据科学家的人被建议在数学和算法方面建立坚实的基础,以适应不断变化的领域。这个访谈为人工智能带来了一个新时代的创新。
请继续关注我们的Leading with Data,以了解行业中更多具有先导性的人工智能和数据科学领袖的探索之旅。您可以在这里查看我们即将举行的Leading with Data活动!





