抱歉,您的浏览器无法访问本站

本页面需要浏览器支持(启用)JavaScript


了解详情 >
image

分布式文件系统HDFS: 核心原理与操作

Hadoop HDFS
Hadoop HDFS
Hadoop HDFS
Hadoop HDFS

如何学习大数据?

  1. 思想、架构、原理 (非常重要)
  2. 搭建环境 (建议: Apache版本)

1. 什么是大数据

Volume, Velocity, Variety, Value, Veracity

商品推荐:

Q1: 大量的订单如何存储 ?
Q2: 大量的订单如何计算 ?

大数据的核心问题是?

  1. 数据的存储
  2. 数据的计算

2. 分布式文件系统

分布式文件系统的核心原理

Q1: 硬盘不够大

  1. 多几个硬盘

Q2: 硬盘不够安全

  1. 多存几份
  2. HDFS的默认的 数据库冗余度: 3

主从架构 HDFS、Yarn、Hbase、Storm、Spark、Flink 都是主从架构

  1. 存在的问题: 单点故障
  2. Zookeeper: HA (Hadoop的HA实现架构)
1
2
3
4
5
6
➜ hdfs dfsadmin -report

➜ jps
43501 DataNode
43502 NameNode
43503 SecondaryNameNode

3. 操作 HDFS

  1. 命令行
  2. Web Console: 端口 9870
  3. Java程序
使用 Java API 上传数据到HDFS
使用 Java API 上传数据到HDFS

4. HDFS 进阶

  1. 回收站
  2. 安全模式
  3. 配额
  4. 权限管理
  5. 快照

Reference

Comments