type
Post
status
Published
date
Apr 22, 2026
slug
bigdata001
summary
tags
大数据
category
大数据
icon
password
example-row
「ODS 装载 → DWD → DWS → ADS」是大数据的数据分层处理流程,就像工厂的生产线:

ODS 装载(原材料入库)

  • 输入:外部的 AVL/CSV 原始文件
  • 做什么:把原始文件读进来,原样存入 ODS 表
  • 比喻:原材料刚运到仓库,还没拆包整理

ODS → DWD(原材料加工)

  • 输入:ODS 表的原始数据
  • 做什么:清洗数据(去空值、格式转换、标准化)
  • 比喻:把原材料清洗、分类、去杂质,变成标准零件

DWD → DWS(组装半成品)

  • 输入:DWD 表的清洗后数据
  • 做什么:聚合特征,生成宽表(用于模型训练)
  • 比喻:把零件组装成半成品,方便后续使用

DWS → ADS(成品包装)

  • 输入:DWS 表的特征数据 + 模型推理结果
  • 做什么:生成最终应用数据(风险等级、报告)
  • 比喻:半成品贴上标签、包装好,可以直接销售

为什么要分层?

  1. 数据复用:DWD 层的数据可以被多个下游任务使用
  1. 问题隔离:某一层出问题,不需要重跑全部
  1. 职责清晰:每层做专门的事,便于维护
  1. 性能优化:ADS 层只存最终结果,查询更快
 
【python007】@asynccontextmanager 装饰器【blog001】Windows下hexo+github
Loading...