PySpark 简介
Spark - 概述
Apache Spark是一个闪电般快速的实时处理框架。它进行内存计算以实时分析数据。由于 Apache Hadoop MapReduce 仅执行批处理并且缺乏实时处理功能,因此它开始出现。因此,引入了Apache Spark,因为它可以实时执行流处理,也可以处理批处理。
除了实时和批处理之外,Apache Spark还支持交互式查询和迭代算法。Apache Spark有自己的集群管理器,可以托管其应用程序。它利用Apache Hadoop进行存储和处理。它使用 HDFS (Hadoop分布式文件系统)进行存储,它也可以在 YARN 上运行Spark应用程序。
PySpark - 概述
Apache Spark是用 Scala编程语言 编写的。为了用Spark支持Python,Apache Spark社区发布了一个工具PySpark。使用PySpark,您也可以使用Python编程语言中的 RDD 。正是由于一个名为 Py4j 的库,他们才能实现这一目标。
PySpark提供了 PySpark Shell ,它将Python API链接到spark核心并初始化Spark上下文。今天,大多数数据科学家和分析专家都使用Python,因为它具有丰富的库集。将Python与Spark集成对他们来说是一个福音。
PySpark教程导航
PySpark 简介 | PySpark 环境设置 | PySpark SparkContext | PySpark RDD | PySpark广播与累积器 |
PySpark SparkConf | PySpark SparkFiles | PySpark StorageLevel | PySpark MLlib | PySpark Serializers |
在本章中,我们将了解PySpark的环境设置。注 - 这是考虑到您的计算机上安装了Java和Scala。现在让我们通过以下步骤下载并设置PySpark。第1步 - 转到官方Apache Spark 下载 页面并下载 ...