数据科学家的指南:Make和Makefiles
数据科学家的指南:Make和Makefiles' - 'Guide for Data Scientists Make and Makefiles
如何使用Make和Makefiles优化你的机器学习流程
背景
数据科学家现在被期望编写生产代码来部署他们的机器学习算法。因此,我们需要了解软件工程的标准和方法,以确保我们的模型能够稳健有效地部署。在开发者社区中非常有名的一个工具就是make
。这是一个强大的Linux命令,开发者们早已知晓。在本文中,我想展示如何使用它来构建高效的机器学习流程。
什么是Make?
make
是一个类似于ls
或cd
的终端命令/可执行文件,它存在于大多数类UNIX操作系统中,例如MacOS和Linux。
使用make
可以将你的工作流程简化并分解成一系列逻辑分组的shell命令。
它被开发者广泛使用,同时也被数据科学家采用,因为它简化了机器学习流程,使得生产部署更加稳健。
为什么数据科学要使用Make?
make
是一种强大的工具,数据科学家应该利用它的以下优势:
- 自动化机器学习环境的设置
- 更清晰的端到端流程文档
- 更容易测试具有不同参数的模型
- 项目的结构和执行更加明显
什么是Makefile?
Makefile
基本上就是make
命令读取和执行的内容。它由三个组成部分组成:
- 目标:这些是你要构建的文件,如果你只是执行命令,也可以有一个
PHONY
目标。 - 依赖:在执行此目标之前需要运行的源文件。
- 命令:按照字面意思,这些是生成目标的一系列步骤。
基本示例
让我们通过一个非常简单的示例来使理论变得具体。