data-warehouse review 6
1. Data Layer
No. |
Title |
Tech |
1. |
数据采集 |
flume, kafka, sqoop, logstach, datax |
2. |
数据存储 |
mysql, hdfs, hbase, redis, elastic, kudu, mongodb |
3. |
数据计算 |
hive, tez, spark, flink, storm |
4. |
数据查询 |
presto, kylin, impala, druid, clickhouse |
5. |
数据可视化 |
echarts, superset, quickbl, dataV |
6. |
任务调度 |
azkaban, airflow, Oozie |
7. |
集群监控 |
Zabbix |
8. |
元数据管理 |
Apache Atlas |
9. |
权限管理 |
Aapche Ranger |
2. Data Layer Boundary
3. Topic
No. |
主题名称 |
主题描述 |
1. |
客户 (USER) |
个人, 商家,用户. 用户信息, 人行征信信息, 个人信息 如: 学历, 职业等 |
2. |
产品 (PRD) |
信用卡, … 等等 |
3. |
交易 (TRD) |
订单生命周期管理 |
4. |
事件 (EVT) |
风险事件,运营活动,点击日志 等 |
5. |
协议 (AGT) |
合约 |
6. |
财务 (FIN) |
账务相关的分析 |
7. |
(CAP)/(AST)/(REL) |
资金 (CAP) / 资产 (AST) / 关系 (REL) |
4. Data Update
4.1 Data Life Cycle
Data Layer |
表类型 |
表类型描述 |
生命周期管理规则 |
ODS/DM/ADS/DIM |
- |
- |
不做处理 |
DWD |
_h |
时全量 |
31days, 直到月末 |
.. |
_hh |
时增量 |
366days |
.. |
_d |
天全量 |
31days, 直到月末 |
.. |
_dd |
天增量 |
366days |
.. |
(w)(m)(y) |
周/月/年 |
7m / 24m |
4.2 Data Type
Data Type |
Desc |
STRING |
字符串数据 |
BIGINT |
长整型数据 |
DOUBLE |
双精度型浮点数据 |
4.3 NULL
NVL(time, “9991231235959”)
NVL(date, “9991231”)
Reference