Apache Pig SPLIT 运算符

Apache Pig SPLIT 运算符根据提供的表达式将关系分解为两个或多个关系。这里,一个元组可能会或可能不会分配给一个或多个关系。

 

SPLIT 运算符示例

在这个例子中,我们拆分了提供的关系

 

执行 SPLIT Operator 的步骤

 

  • 在本地计算机上创建一个文本文件并为其提供一些值。

 

$ nano psplit.txt

Apache Pig SPLIT Operator

  • 检查写入文本文件中的值。
$ cat psplit.txt

Apache Pig SPLIT Operator

  • 上传特定目录下 HDFS 上的文本文件。
$ hdfs dfs-put psplit.txt /pigexample
  • 开启猪 MapReduce 运行模式。
$ pig
  • 加载包含数据的文件。
grunt> A = LOAD '/pigexample/psplit.txt' USING PigStorage(',') AS (a1:int,a2:int) ;
  • 现在,执行并验证数据。
grunt> DUMP A;

Apache Pig SPLIT Operator

  • 让我们提供拆分关系的表达式。
grunt> SPLIT A INTO X if a1<=2, Y if a1>2;

Apache Pig SPLIT Operator

  • 现在,执行并验证第一个关系的数据。
grunt> DUMP X;

Apache Pig SPLIT Operator

  • 现在,执行并验证第二个关系的数据。
grunt> DUMP Y;

Apache Pig SPLIT Operator

在这里,我们得到了想要的输出。

Apache Pig UNION 运算符用于计算两个或多个关系的并集。它不维护元组的顺序。它也不会消除重复的元组。 UNION 运算符示例在这个示例中,我们计算两个关系的数据。  ...