微信小程序页面迁移校验之前 P5任务处理之前
This commit is contained in:
@@ -124,6 +124,7 @@ class BaseDwsTask(BaseTask):
|
||||
- `_do_extract()` 而非直接修改 `extract()` 签名,是为了保持向后兼容——已覆盖 `extract()` 的子类无需改动。
|
||||
- `DATE_COL = None` 作为哨兵值,未声明时 load() 回退到 `"stat_date"` 默认值。
|
||||
- 子类迁移是渐进式的:先在基类添加默认实现,再逐个子类迁移。
|
||||
- **营业日切点**:所有 `stat_date` / `stat_month` 等日期列的值为营业日,以 `BUSINESS_DAY_START_HOUR`(默认 08:00)为分割点。08:00 前的记录归属前一天/前一月。月统计 = 当月1日 08:00 ~ 次月1日 08:00,周统计 = 周一 08:00 ~ 次周一 08:00。
|
||||
|
||||
### 组件 2:dws_helpers.py 公共辅助模块
|
||||
|
||||
|
||||
@@ -22,7 +22,7 @@
|
||||
- **Flow**:ETL 编排单元,定义一组按层顺序执行的任务集合(原名 pipeline)
|
||||
- **Layer**:ETL 数据处理层级,包括 ODS、DWD、DWS、INDEX
|
||||
- **Connector**:ETL 连接器,对接特定上游 SaaS 的数据抽取模块(原名 pipeline 目录)
|
||||
- **DATE_COL**:DWS 子类声明的日期列名,用于 extract 和 delete_existing_data 的时间过滤
|
||||
- **DATE_COL**:DWS 子类声明的日期列名,用于 extract 和 delete_existing_data 的时间过滤。日期值为营业日(以 `BUSINESS_DAY_START_HOUR`(默认 08:00)为日切点)
|
||||
- **TaskContext**:运行期上下文数据类,包含 store_id、window_start/end、window_minutes、cursor
|
||||
- **拓扑排序**:根据任务间依赖关系确定执行顺序的算法,确保被依赖任务先于依赖方执行
|
||||
- **幂等**:同一操作执行多次与执行一次效果相同,本系统通过 delete-before-insert 实现
|
||||
|
||||
Reference in New Issue
Block a user