ETL vs ELT vs 数据流ETL
ETL vs ELT vs 数据流ETL
探索批处理和实时设计范式的数据处理

ETL(提取、转换、加载)和ELT(提取、加载、转换)是数据处理上下文中的两个基本概念,用于描述数据摄取和转换设计范式。尽管这些术语经常互换使用,但它们指的是稍微不同的概念,并适用于不同的使用案例,也会施加不同的设计。
在本文中,我们将探讨ETL和ELT的差异和相似之处,并讨论云计算和数据工程领域的发展如何影响数据处理的设计模式。此外,我们还将概述现代数据团队所提供的主要优势和劣势。最后,我们将讨论流式ETL,这是一种新兴的数据处理模式,旨在解决传统批处理方法的各种劣势。
感兴趣的三个步骤
从外部来源将数据摄取和持久化到目标系统涉及三个不同的步骤。
提取‘提取’步骤包括从源系统中提取数据所需的所有过程。这些源包括应用程序编程接口(API)、数据库系统或文件,以及物联网(IoT)设备,而数据可以是任何形式:结构化、半结构化或非结构化。在此步骤中提取的数据通常称为‘原始数据’。
转换在‘转换’步骤中,流水线对原始数据进行转换,以实现特定目标。这个目标通常与业务或技术要求有关。一些常用的转换包括数据修改(例如将United States
映射为US
)、记录或属性选择、与其他数据源的连接,甚至数据验证。

加载在‘加载’步骤中,数据(原始或转换后)被加载到目标系统中。通常,目标系统是OLAP系统(即数据仓库或…