ETL 管道

ETL 管道是指从输入源提取数据、转换数据并加载到输出目的地(例如数据集市、数据库和数据)的一组过程用于分析、报告和数据同步的仓库。

ETL Pipeline

ETL 代表提取、转换和加载。

提取

在这个阶段,数据从各种异构来源中提取,例如业务系统、营销工具、传感器数据、API 和交易数据库。

转换

第二步是将数据转换成不同应用程序使用的格式。在此阶段,我们将数据从存储数据的格式更改为不同应用程序中使用的格式。成功提取数据后,我们将数据转换为用于标准化处理的形式。 ETL 过程中使用了各种工具,例如 Data Stage、Informatica 或 SQL Server Integration Services。

加载

这是 ETL 过程的最后阶段。在这里,信息以一致的格式提供。现在我们可以获取任何特定的数据,并可以将其与另一部分数据进行比较。

数据仓库可以自动更新或手动触发。

这些步骤在仓库之间执行基于要求。作为过程的一部分,数据至少临时存储在一组临时表中。

但是,当数据加载到数据库或数据仓库时,数据管道不会结束。 ETL 目前正在增长,因此它可以支持跨事务系统、操作数据存储、MDM 中心、云和 Hadoop 平台的集成。由于非结构化数据的增长,数据转换的过程变得更加复杂。例如,现代数据处理包括实时数据,例如来自广泛电子商务网站的网络分析数据。 Hadoop 是大数据的代名词。开发了几个基于 Hadoop 的工具来处理 ETL 过程的不同方面。我们可以使用的工具取决于数据的结构方式、批处理方式或我们是否正在处理数据流。

 

ETL 管道和数据管道之间的区别

尽管 ETL 管道和数据管道几乎做相同的活动。他们跨平台移动数据并以某种方式对其进行转换。主要区别在于正在为其构建管道的应用程序。

 

ETL 管道

ETL 管道是为数据仓库应用程序构建的,包括企业数据仓库以及特定主题的数据集市。 ETL管道也用于新应用替代传统应用时的数据迁移解决方案。 ETL 管道通常通过使用精通结构化数据转换的行业标准 ETL 工具构建。

ETL Pipeline

数据管道或商业智能工程师构建 ETL 管道。

 

数据管道

数据管道可以构建用于任何使用数据带来价值的应用程序。它可用于跨应用程序集成数据,构建数据驱动的 Web 产品,构建预测模型,创建实时数据流应用程序,进行数据挖掘活动,构建数字产品中的数据驱动特性。在过去十年中,随着用于构建数据管道的开源大数据技术的出现,数据管道的使用有所增加。这些技术能够转换非结构化和结构化数据。

数据工程师构建数据管道。

差异ETL 管道和数据管道之间是:

ETL管道 数据管道
ETL 管道定义为从一个系统中提取数据、将其转换并将其加载到某个数据库或数据仓库中的过程。 数据管道是指将数据从一个系统移动到另一个系统并在此过程中转换数据的任何一组处理元素。
ETL 管道意味着管道分批工作。例如-管道每 12 小时运行一次。 Data Pipeline 也可以作为流评估运行(即,每个事件都在发生时进行处理)。数据管道的类型是 ELT 管道(将整个数据加载到数据仓库并稍后进行转换)。

ETL 文件是由 Microsoft Tracelog 软件应用程序创建的日志文件。 Microsoft 程序以二进制文件的格式创建事件日志。在 Microsoft 操作系统中,内核创建了日志。 ETL 日志包含如何访问磁盘和 ...