Pig 教程

Apache Pig 教程

Pig 教程提供了 Pig 的基本和高级概念。我们的 Pig 教程是为初学者和专业人士设计的。

Pig 是一个高级数据流平台,用于执行 Hadoop 的 Map Reduce 程序。它是由雅虎开发的。 Pig 的语言是 pig Latin。

我们的 Pig 教程包括 Apache Pig 和 Pig 使用、Pig 安装、Pig 运行模式、Pig Latin 概念、Pig 数据类型、Pig 示例、Pig 用户定义函数的所有主题等

 

什么是Apache Pig

Apache Pig 是一个高级数据流平台,用于执行Hadoop 的MapReduce 程序。 Pig 使用的语言是 Pig Latin。

Pig 脚本在内部转换为 Map Reduce 作业,并在 HDFS 中存储的数据上执行。除此之外,Pig 还可以在 Apache Tez 或 Apache Spark 中执行其工作。

Pig 可以处理任何类型的数据,即结构化、半结构化或非结构化,并将相应的结果存储到 Hadoop 数据文件中系统。使用 PIG 可以实现的每个任务也可以使用 MapReduce 中使用的 java 来实现。

 

Apache Pig 的特性

让我们看看 Pig 技术的各种用途。

 

1) 易于编程

为 map reduce 编写复杂的 java 程序对于非程序员来说是相当困难的。 Pig 使这个过程变得简单。在 Pig 中,查询在内部转换为 MapReduce。

 

2) 优化机会

任务的编码方式允许系统自动优化它们的执行,允许用户专注于语义而不是效率。

 

3) 可扩展性

编写了用户定义的函数,用户可以在其中编写要执行的逻辑

 

4) 灵活

它可以轻松处理结构化和非结构化数据。

 

5) 内置操作符

它包含各种类型的操作符,例如排序、过滤和连接。

 

Apache MapReduce 和 PIG 之间的区别

Apache MapReduce Apache PIG
它是一个低级的数据处理工具。 它是一个高级数据流工具。
这里需要使用Java或Python开发复杂的程序。 不需要开发复杂的程序。
在 MapReduce 中进行数据操作比较困难。 它提供了内置的运算符来执行数据操作,如联合、排序和排序。
它不允许嵌套数据类型。 它提供了嵌套的数据类型,如元组、包和映射。

 

Apache Pig 的优势

 

  • 更少的代码-Pig 使用更少的代码来执行任何操作。
  • 可重用性-Pig 代码足够灵活,可以再次重用。
  • 嵌套数据类型-Pig 提供了一个有用的嵌套数据类型概念,例如元组、包和映射。

 

在本节中,我们将执行 pig 安装。先决条件Java 安装-使用以下命令检查是否安装了 Java。$java-versionHadoop 安装-使用以下命令检查是否安装了 Hadoop。$hadoop version如果您的系 ...