数据科学家的指南:Make和Makefiles

数据科学家的指南:Make和Makefiles' - 'Guide for Data Scientists Make and Makefiles

如何使用Make和Makefiles优化你的机器学习流程

Nubelson Fernandes在Unsplash上的照片

背景

数据科学家现在被期望编写生产代码来部署他们的机器学习算法。因此,我们需要了解软件工程的标准和方法,以确保我们的模型能够稳健有效地部署。在开发者社区中非常有名的一个工具就是make。这是一个强大的Linux命令,开发者们早已知晓。在本文中,我想展示如何使用它来构建高效的机器学习流程。

什么是Make?

make是一个类似于lscd的终端命令/可执行文件,它存在于大多数类UNIX操作系统中,例如MacOS和Linux。

使用make可以将你的工作流程简化并分解成一系列逻辑分组的shell命令。

它被开发者广泛使用,同时也被数据科学家采用,因为它简化了机器学习流程,使得生产部署更加稳健。

为什么数据科学要使用Make?

make是一种强大的工具,数据科学家应该利用它的以下优势:

  • 自动化机器学习环境的设置
  • 更清晰的端到端流程文档
  • 更容易测试具有不同参数的模型
  • 项目的结构和执行更加明显

什么是Makefile?

Makefile基本上就是make命令读取和执行的内容。它由三个组成部分组成:

  • 目标:这些是你要构建的文件,如果你只是执行命令,也可以有一个PHONY目标。
  • 依赖:在执行此目标之前需要运行的源文件。
  • 命令:按照字面意思,这些是生成目标的一系列步骤。

基本示例

让我们通过一个非常简单的示例来使理论变得具体。