数据版本控制简介

Introduction to Data Version Control

PYTHON | 数据 | 编程

使用Hangar在Python中逐步指南实现您自己的DVC

Florian Olivo在Unsplash上的照片

什么是数据版本控制(DVC)?

任何生产级系统都需要某种形式的版本控制。

一个当前真相的唯一来源。

任何持续更新的资源,尤其是由多个用户同时更新的资源,都需要一种审计跟踪来记录所有更改。

在软件工程中,解决这个问题的方法是Git。

如果您有编写过代码的经验,那么您可能对Git的优势非常熟悉。

Git允许我们提交更改,从源代码创建不同的分支,并将我们的分支合并回原始分支,仅举几例。

DVC是纯粹的相同范式,但用于数据集。您看,实时数据系统不断摄取新的数据点,而不同的用户在同一数据集上进行不同的实验。

这导致了同一数据集的多个版本,这绝对不是一个当前真相的唯一来源。

此外,在机器学习环境中,我们还将对同一数据集的不同版本训练的同一“模型”有多个版本(例如,重新训练模型以包含新的数据点)。

如果没有正确审计和版本控制,这将创建一个混乱的数据集和实验网络。我们绝对不希望出现这种情况!

因此,DVC是一个涉及通过注册特定数据集上的更改来跟踪我们的数据集的系统。有多种免费和付费的DVC解决方案。

我最近发现了Hangar,一个完全开源的Python DVC软件包。让我们来看看它能做什么,好吗?

使用Hangar工作

hangar软件包是一个纯Python实现,可以通过pip获得。

它的核心功能也与git密切相关,这极大地帮助了学习曲线。