数据科学家具体做什么?

在三个不同的数据科学团队工作后的诚实反思(提示:PowerPoint比你想象的要多得多)

Image by Hermansyah on Unsplash

数据科学家被称为许多不同的称号:

  • “数据科学家是住在旧金山的统计学家”
  • “专业模型师,但不是那种”
  • “我会用Google Stack Overflow来赚钱”
  • “我向高管销售魔法”

或者,我个人最喜欢的:

  • “数据科学就是在Mac上进行的统计学”

正如这个职业描述的大杂烩所展示的那样,很难从日常工作来了解数据科学家的角色。虽然现有的许多文章都非常优秀,但它们的时间跨度都在2012-2020年之间,在数据科学这样一个发展迅速的领域中,这些文章很快就会变得过时。

在本文中,我的目的是揭开数据科学家在2023年的生活,以个人的视角给出一个真实的洞察。

通过借鉴我在三个不同的数据科学团队工作的经验,我将尝试帮助三种类型的人:

  1. 志向成为数据科学家的人:我将提供一个现实的视角,让你能够更明智地决定是否适合这个职位,以及需要掌握哪些技能
  2. 现有的数据科学家:为你的团队提供新的尝试思路,并回答“那你到底在做什么?”的问题
  3. 与(或想要聘请)数据科学家合作的人:了解我们到底在做什么(也许更重要的是,我们不做什么)

不仅仅是自动驾驶汽车、ChatGPT和深度学习

一家大型科技公司的人工智能主管曾告诉我,他遇到的关于数据科学家最大的误解是,我们总是在构建深度学习模型并进行“高级人工智能工作”。

现在不要误会我-数据科学确实可以变得非常复杂,但它包含的远不止人工智能和其华丽的用例。将数据科学与人工智能等同起来,就像假设律师们整天都在法庭上大声喊“我反对!”一样,幕后的工作要复杂得多。

数据科学比“高级人工智能工作”更多

我最喜欢的数据科学描述之一来自位于西雅图的首席数据科学家Jacqueline Nolis。Nolis将数据科学分为三个流派:

  1. 商业智能 – “将公司拥有的数据放在合适的人面前”
  2. 决策科学 – “利用数据帮助公司做出决策”
  3. 机器学习 – 她将其描述为“将数据科学模型不断投入生产”,尽管我可能会采取更广泛的视角并包括ML模型的实际开发。

不同的公司会强调不同的流派,即使在这些流派中,方法和目标也会有所不同。例如:

  • 如果你是从事决策科学的数据科学家,你的日常任务可能包括运行A/B测试和解决线性规划问题。
  • 如果你是一个花大部分时间构建ML模型的数据科学家,它们可能是产品为中心的(例如,构建一个将被纳入应用程序中的推荐算法)或业务运营为重点的(例如,构建一个用于改善公司后端商业运营的定价或预测模型)。

就我个人而言,我发现数据科学最令人愉快的事情之一是能够涉足这三个领域,因此在我从事的数据科学角色中,我始终努力确保有很多的变化。这是一种尝试构建“全才,精通一门”的思维方式的好方法,我曾经提倡这种思维方式,作为将你的职业定位为数据科学家的一种方式。

PowerPoint并不仅仅是你想象(或希望)的那样简单

Image by Teemu Paananen on Unsplash

哦,PowerPoint。如果你认为数据科学家可以免除它,那你就大错特错了。

制作和展示幻灯片是任何数据科学家角色的关键部分,因为如果你无法传达模型的价值,它们就无处可去。正如Andrew Young所说:

多年来,我见过许多拥有博士学位的数据科学家花费数周甚至数月的时间构建高度有效的机器学习流程,(理论上)将提供现实世界的价值。不幸的是,如果他们未能有效地传达他们的工作价值,这些劳动成果可能会毁于一旦。

在我的团队中,我们非常注重利益相关者的沟通,因此PowerPoint在我们的日常工作中经常出现。

对于每个项目,我们都会建立一个主幻灯片集,不同的团队成员可以添加内容,然后在向利益相关者展示时从此幻灯片集中选择相关幻灯片。必要时,我们尝试创建多个关键幻灯片的版本,以便我们可以将我们的信息针对不同技术水平的不同受众进行量身定制。

说实话,我其实并不介意在PowerPoint上花时间(请不要取消我),因为我发现制作幻灯片是梳理关键思想的好方法。老实说,它有助于我记住大问题,比如:(1)我要解决什么问题,(2)我的解决方案与基准解决方案相比如何,(3)有哪些依赖和时间表。

清洁数据?给我来一杯啤酒

通常被说成数据科学是80%准备数据…

…和20%抱怨准备数据。

我不仅仅是在谈论数据科学是“新事物”的公司。

即使在已经建立数据集的成熟公司中,数据准备和验证也可能需要大量时间。至少,你可能会发现数据集(1)存储在不同的平台上,(2)以不同的速率发布,或者(3)需要进行大量的整理以使其格式正确。即使你的模型已经投入生产,你也需要不断检查数据集是否存在漂移、断裂或缺失信息。

而且,千万不要让我谈论用户输入数据

在我以前的一份工作中,我们有一个在线表单,用户需要输入他们的地址,我们的用户使用了95种不同的拼写方式来拼写“巴塞罗那”:我说的是从“barcalona”到“BARÇA”和“Barna”的所有方式。

95种不同的拼写方式来拼写“巴塞罗那”

故事的寓意:除非你想花费未来几周时间哭泣,否则不要使用自由文本字段。

你总是在学习

Image by Christina @ wocintechchat.com on Unsplash

我最喜欢数据科学的事情之一是它涉及持续学习。

对我而言,我一直担心会陷入一个只做同样事情的工作中,我很感激数据科学不是其中之一。作为数据科学家,你会发现没有所谓的“标准”项目。所有项目都需要略微量身定制的方法,因此你总是需要适应现有知识并学习新事物。

我不仅仅是在谈论像参加会议或在线课程这样的“正式”学习。

更有可能的是,你会花费大量时间进行“微型学习”,阅读编码文档、Towards Data Science文章和Stack Overflow答案。如果你对我如何处理持续学习和保持更新任务的方式感兴趣,你可能会对阅读我最近一篇文章感兴趣,其中我更深入地谈到了这个问题:

不,我不仅仅是询问ChatGPT告诉我

towardsdatascience.com

这是一项团队运动

Marvin Meyer在Unsplash上的图片

数据科学家不是独来独往的。

我们是嵌入在团队中的,为了有效地工作,您必须能够合作。我非常喜欢Megan Lieu的说法:

当我最终成为数据科学家时最大的失望是发现这不仅是整天埋头工作。

“我不能等待着不与任何人交谈,构建模型并且一直独自做技术数据科学的事情!”

对于我这个内向的人来说,我意识到我不仅需要与业务和外部利益相关者合作,而且每天实际上还要与他们交谈

虽然我比Megan弱一点(我天生更外向),但我也对此角色通常是基于团队合作的方式感到惊讶。在我的角色中,“合作”意味着像:每日站立会议讨论任务和障碍,定期进行配对编程会话来调试和优化代码,并就不同的技术方法的优点进行平衡的讨论(阅读:争论)。

总的来说,我认为我约花费50-70%的时间独自工作,其余的时间则是配对或团队工作,尽管确切的比率会很大程度上取决于您的公司和资历水平。

就是这样!

感谢您阅读这篇关于我作为数据科学家生活的小见解。

我希望您会发现这有所帮助,如果您想聊天,也请随时与我联系:-)

还有一件事 – 您能成为我的1%吗?

小猪AI上不到1%的读者点击我的“关注”按钮,因此当您在小猪AI、Twitter或LinkedIn上这样做时,这确实意味着很多。

如果您想获取对我所有故事(以及小猪AI.com的其他内容)的无限访问权限,可以通过我的推荐链接每月支付5美元。与通过一般注册页面注册相比,它不会增加额外的费用,并有助于支持我的写作,因为我会获得少量佣金。