编程宝库 - 技术改变世界

编程宝库

Pig教程

Apache Pig DISTINCT 运算符

Apache Pig DISTINCT 运算符用于删除关系中的重复元组。最初，Pig 对给定的数据进行排序，然后消除重复项。

在本例中，我们消除了重复的元组。

$ nano pdistinct.txt

Apache Pig DISTINCT Operator

$ cat pdistinct.txt

Apache Pig DISTINCT Operator

$ hdfs dfs-put pdistinct.txt /pigexample

$ pig

grunt> A = LOAD '/pigexample/pdistinct.txt' USING PigStorage(',') as (a1:int,a2:int,a3:int);

grunt> DUMP A;

Apache Pig DISTINCT Operator

grunt> Result = DISTINCT A;

grunt> DUMP Result;

Apache Pig DISTINCT Operator

在这里，我们得到了想要的输出。

Apache Pig FILTER 运算符用于删除关系中的重复元组。最初，Pig 对给定的数据进行排序，然后消除重复项。 FILTER 运算符示例在此示例中，我们消除了重复的元组。&nb ...