Hadoop 教程
Hadoop 是一个由 Apache 基金会开发的分布式系统开源框架,允许使用简单的编程模型在跨计算机集群的分布式环境中存储和处理大数据。
用户可以在不了解分布式底层细节的情况下,开发分布式程序,充分利用集群的威力进行高速运算和存储。
Hadoop 实现了一个分布式文件系,其中一个组件是HDFS(Hadoop Distributed File System)。HDFS 有高容错性的特点,并且设计用来部署在低廉的硬件上;而且它提供高吞吐量来访问应用程序的数据,适合那些有着超大数据集的应用程序。
本简要教程提供了大数据,MapReduce 算法和 Hadoop 分布式文件系统的快速介绍。
1. 适合人群
本教程为希望通过 Hadoop Framework 学习大数据分析基础知识,并成为 Hadoop 开发人员的专业人员准备。
软件专业人员,分析专业人员 和 ETL开发人员是本课程的主要受益人。
2. 预备知识
在开始本教程之前,我们假设您已经接触过 Java,数据库 概念和 Linux操作系统。
3. Hadoop API类库
更多 Hadoop API 详细内容,请参考 Hadoop API类库 。
4. Hadoop教程内容导航
Hadoop 教程 | Hadoop 大数据概述 | Hadoop 大数据解决方案 | Hadoop 简介 | Hadoop 环境设置 |
Hadoop HDFS概述 | Hadoop HDFS操作 | Hadoop 命令参考 | Hadoop MapReduce | Hadoop 流媒体 |
Hadoop 多节点群集 |
由于新技术,设备和社交网站等通信手段的出现,人类产生的数据量每年都在迅速增长。从一开始到2003年,我们生产的数据量为50亿千兆字节。如果您以磁盘形式堆叠数据,它可能会填满整个足球场。2011年每两天产生一次,20 ...