抱歉,您的浏览器无法访问本站

本页面需要浏览器支持(启用)JavaScript


了解详情 >
Hadoop MapReduce
Hadoop MapReduce

1. 什么是大数据? 核心问题是什么?

举个🌰: 商品的推荐

(问题1) 大量的订单数据如何存储?
(问题1) 大量的订单数据如何计算?

大数据的核心问题 (技术上):

  1. 存储 (HDFS)
  2. 计算 (离线 + 实时)

离线计算 与 实时计算

2.1 离线计算 - 批处理

(MapReduce, Spark Core, Flink DataSet API)

2.2 实时计算

(Spark Streaming、Flink DataStream API)

MapReduce 核心思想: 先拆分,在合并

2. MapReduce 编程模式

Hadoop MapReduce
Hadoop MapReduce

数据的处理流程: WordCount程序为例

Hadoop MapReduce
Hadoop MapReduce

3. MapReduce 编程实战

  1. WordCountMapper
  2. WordCountReducer
  3. WordCountMain
Hadoop MapReduce
Hadoop MapReduce
Hadoop MapReduce WordCountMain
Hadoop MapReduce WordCountMain

4. 分布式计算模型

MapReduce 计算模型的来源: PageRank 问题

启动 Hadoop & Yarn:

Hadoop & Yarn align=center
Hadoop & Yarn align=center

执行 MapReduce:

Hadoop MapReduce
Hadoop MapReduce

执行结果:

Hadoop MapReduce
Hadoop MapReduce

5. 其他的一些知识:

Hadoop MapReduce
Hadoop MapReduce

6. MapReduce 在 Hadoop 中的位置

Hadoop MapReduce
Hadoop MapReduce

Reference