225 lines
9.7 KiB
Markdown
225 lines
9.7 KiB
Markdown
# 设计文档:助教废除(Abolish)全链路清理
|
||
|
||
## 概述
|
||
|
||
本设计描述如何安全地从 ETL 全链路中移除"助教废除"独立数据链路。
|
||
核心思路:**删除独立的废除链路(API → ODS → DWD),保留服务记录中已有的 `is_trash` 字段作为唯一废除判断源。**
|
||
|
||
清理范围覆盖:
|
||
- ETL 任务定义(ODS 任务 + 注册表)
|
||
- DWD 加载映射(FACT_MAPPINGS + TABLE_MAP)
|
||
- DWS 聚合逻辑(死代码移除)
|
||
- DWD 验证器配置
|
||
- 数据库 DDL 和迁移脚本
|
||
- 属性测试
|
||
- 运维脚本
|
||
|
||
## 架构
|
||
|
||
### 清理前数据流
|
||
|
||
```mermaid
|
||
graph LR
|
||
API_Abolish["/AssistantPerformance/GetAbolitionAssistant"] --> ODS_ACR["ods.assistant_cancellation_records"]
|
||
ODS_ACR --> DWD_ATE["dwd.dwd_assistant_trash_event"]
|
||
ODS_ACR --> DWD_ATE_EX["dwd.dwd_assistant_trash_event_ex"]
|
||
DWD_ATE --> |"_extract_trash_records (死代码)"| DWS_DAILY["dws.dws_assistant_daily_detail"]
|
||
|
||
API_Service["/AssistantPerformance/GetAssistantServiceRecords"] --> ODS_ASR["ods.assistant_service_records"]
|
||
ODS_ASR --> DWD_SL_EX["dwd.dwd_assistant_service_log_ex"]
|
||
DWD_SL_EX --> |"is_trash 字段 (实际使用)"| DWS_DAILY
|
||
|
||
style API_Abolish fill:#f99,stroke:#c00
|
||
style ODS_ACR fill:#f99,stroke:#c00
|
||
style DWD_ATE fill:#f99,stroke:#c00
|
||
style DWD_ATE_EX fill:#f99,stroke:#c00
|
||
```
|
||
|
||
### 清理后数据流
|
||
|
||
```mermaid
|
||
graph LR
|
||
API_Service["/AssistantPerformance/GetAssistantServiceRecords"] --> ODS_ASR["ods.assistant_service_records"]
|
||
ODS_ASR --> DWD_SL_EX["dwd.dwd_assistant_service_log_ex"]
|
||
DWD_SL_EX --> |"is_trash 字段"| DWS_DAILY["dws.dws_assistant_daily_detail"]
|
||
|
||
style API_Service fill:#9f9,stroke:#090
|
||
style DWD_SL_EX fill:#9f9,stroke:#090
|
||
```
|
||
|
||
## 组件与接口
|
||
|
||
### 需要修改的文件清单
|
||
|
||
| 层级 | 文件 | 操作 | 需求 |
|
||
|------|------|------|------|
|
||
| ODS 任务 | `tasks/ods/ods_tasks.py` | 删除 `OdsTaskSpec` 条目 + 从默认序列移除 | 1.2, 1.3 |
|
||
| 任务注册 | `orchestration/task_registry.py` | 删除 `ODS_ASSISTANT_ABOLISH` 注册 | 1.1 |
|
||
| DWD 加载 | `tasks/dwd/dwd_load_task.py` | 删除 FACT_MAPPINGS 和 TABLE_MAP 条目 | 2.1–2.4 |
|
||
| DWS 日度 | `tasks/dws/assistant_daily_task.py` | 删除 `_extract_trash_records`、`_build_trash_index`,简化 `_aggregate_by_assistant_date` 签名 | 3.1–3.4 |
|
||
| DWD 验证 | `tasks/verification/dwd_verifier.py` | 删除废除表的 ID 和时间字段映射 | 4.1–4.4 |
|
||
| DDL | `db/etl_feiqiu/schemas/dwd.sql` | 删除 `dwd_assistant_trash_event` / `_ex` 的 CREATE TABLE + COMMENT | 6.1–6.2 |
|
||
| DDL | `db/etl_feiqiu/schemas/ods.sql` | 删除 `assistant_cancellation_records` 的 CREATE TABLE + COMMENT | 6.3 |
|
||
| DDL | `db/etl_feiqiu/schemas/schema_dwd_doc.sql` | 删除废除表的 CREATE TABLE + COMMENT | 6.4 |
|
||
| DDL | `db/etl_feiqiu/schemas/schema_ODS_doc.sql` | 删除废除表的 CREATE TABLE + COMMENT | 6.5 |
|
||
| DDL | `db/etl_feiqiu/schemas/dws.sql` | 更新 `dws_assistant_daily_detail` 注释 | 6.6 |
|
||
| DDL | `db/etl_feiqiu/schemas/schema_dws.sql` | 更新 `dws_assistant_daily_detail` 注释 | 6.7 |
|
||
| 迁移 | `db/etl_feiqiu/migrations/` | 新建 DROP TABLE 迁移脚本 | 5.1–5.5 |
|
||
| 属性测试 | `tests/test_property_1_fact_mappings.py` | 删除 `_REQ3_EXPECTED` 和相关引用 | 7.1–7.3 |
|
||
| 运维 | `scripts/ops/dataflow_analyzer.py` | 删除 `ODS_ASSISTANT_ABOLISH` spec 条目 | 8.1 |
|
||
| 运维 | `scripts/ops/gen_full_dataflow_doc.py` | 删除 `ODS_ASSISTANT_ABOLISH` spec 条目 | 8.1 |
|
||
| 运维 | `scripts/ops/etl_consistency_check.py` | 删除废除相关映射 | 8.1–8.2 |
|
||
| 运维 | `scripts/ops/blackbox_test_report.py` | 删除废除相关映射 | 8.1–8.4 |
|
||
| 运维 | `scripts/ops/field_audit.py` | 删除废除表审计条目 | 8.3–8.4 |
|
||
| 运维 | `scripts/ops/gen_field_review_doc.py` | 删除废除表字段定义 | 8.3–8.4 |
|
||
| 运维 | `scripts/ops/gen_api_field_mapping.py` | 从 ODS_TABLES 列表移除 | 8.3 |
|
||
| 运维 | `scripts/ops/export_dwd_field_review.py` | 删除废除表条目 | 8.4 |
|
||
| 运维 | `scripts/ops/check_ods_latest_indexes.py` | 删除废除表索引检查 | 8.3 |
|
||
|
||
### 不需要修改的文件(确认安全)
|
||
|
||
| 文件 | 原因 |
|
||
|------|------|
|
||
| `dwd_assistant_service_log_ex` 表 DDL | 保留 `is_trash` 等字段(需求 9) |
|
||
| `ods.assistant_service_records` 表 DDL | 保留 `is_trash` 等字段(需求 9) |
|
||
| `assistant_monthly_task.py` | 仅消费 `dws_assistant_daily_detail` 的 `trashed_seconds`/`trashed_count`,不直接引用废除表 |
|
||
| `assistant_salary_task.py` | 仅消费 `dws_assistant_monthly_summary`,不直接引用废除表 |
|
||
|
||
## 数据模型
|
||
|
||
### 被删除的表
|
||
|
||
```sql
|
||
-- ODS 层
|
||
ods.assistant_cancellation_records -- 78 条记录
|
||
|
||
-- DWD 层
|
||
dwd.dwd_assistant_trash_event -- 主表
|
||
dwd.dwd_assistant_trash_event_ex -- 扩展表
|
||
```
|
||
|
||
### 保留的废除相关字段
|
||
|
||
```sql
|
||
-- ods.assistant_service_records 中(保留)
|
||
is_trash INT -- 废除标记
|
||
trash_reason TEXT -- 废除原因
|
||
trash_applicant_id BIGINT -- 废除申请人 ID
|
||
trash_applicant_name TEXT -- 废除申请人姓名
|
||
|
||
-- dwd.dwd_assistant_service_log_ex 中(保留)
|
||
is_trash INTEGER -- 废除标记
|
||
trash_applicant_id BIGINT -- 废除申请人 ID
|
||
trash_applicant_name VARCHAR(64) -- 废除申请人姓名
|
||
trash_reason VARCHAR(255) -- 废除原因
|
||
```
|
||
|
||
### DWS 层字段(保留,数据来源变更说明)
|
||
|
||
```sql
|
||
-- dws.dws_assistant_daily_detail(保留,注释需更新)
|
||
trashed_seconds INTEGER -- 数据来源:dwd_assistant_service_log_ex.is_trash + income_seconds
|
||
trashed_count INTEGER -- 数据来源:dwd_assistant_service_log_ex.is_trash 计数
|
||
|
||
-- dws.dws_assistant_monthly_summary(保留)
|
||
trashed_hours NUMERIC(10,2) -- 来自 daily_detail.trashed_seconds 汇总
|
||
```
|
||
|
||
## DWS 代码重构细节
|
||
|
||
### assistant_daily_task.py 变更
|
||
|
||
**删除方法:**
|
||
- `_extract_trash_records()` — 查询 `dwd.dwd_assistant_trash_event` 的 SQL,已无消费者
|
||
- `_build_trash_index()` — 构建废除索引,已不参与判断逻辑
|
||
|
||
**修改方法:**
|
||
- `extract()` — 移除对 `_extract_trash_records` 的调用,移除 `trash_records` 变量
|
||
- `transform()` 或调用 `_aggregate_by_assistant_date` 的地方 — 移除 `trash_index` 参数传递
|
||
- `_aggregate_by_assistant_date()` — 从签名中移除 `trash_index` 参数;`is_trash` 判断逻辑保持不变
|
||
|
||
**不变逻辑:**
|
||
```python
|
||
# 这段逻辑保持不变——通过 is_trash 字段判断废除
|
||
is_trashed = bool(record.get('is_trash', 0))
|
||
if is_trashed:
|
||
agg['trashed_seconds'] += income_seconds
|
||
agg['trashed_count'] += 1
|
||
```
|
||
|
||
|
||
## 正确性属性
|
||
|
||
*正确性属性是一种在系统所有有效执行中都应成立的特征或行为——本质上是关于系统应该做什么的形式化陈述。属性是人类可读规格与机器可验证正确性保证之间的桥梁。*
|
||
|
||
### Property 1:废除聚合逻辑正确性(is_trash 驱动)
|
||
|
||
*对任意*服务记录集合,其中每条记录包含 `is_trash` 标记和 `income_seconds` 值,聚合后:
|
||
- `trashed_seconds` 应等于所有 `is_trash=1` 记录的 `income_seconds` 之和
|
||
- `trashed_count` 应等于所有 `is_trash=1` 记录的数量
|
||
- `total_service_count` 应等于所有 `is_trash=0` 记录的数量
|
||
- `total_seconds` 应等于所有 `is_trash=0` 记录的 `income_seconds` 之和
|
||
|
||
**Validates: Requirements 3.4, 9.3**
|
||
|
||
### Property 2:FACT_MAPPINGS 一致性(已有属性测试的回归验证)
|
||
|
||
*对任意* FACT_MAPPINGS 中的表名,该表名应在 TABLE_MAP 中有对应的 ODS 源表映射,且映射的每个 DWD 列名应为合法的 SQL 标识符。
|
||
|
||
**Validates: Requirements 2.1–2.4, 7.3**
|
||
|
||
> 注:此属性已由 `tests/test_property_1_fact_mappings.py` 实现。清理后需确保该测试仍然通过。
|
||
|
||
## 错误处理
|
||
|
||
### 迁移脚本安全性
|
||
|
||
- 所有 `DROP TABLE` 语句使用 `IF EXISTS`,确保幂等执行
|
||
- 迁移脚本在单个事务中执行,失败时自动回滚
|
||
- 迁移脚本包含注释说明移除原因,便于审计追溯
|
||
|
||
### 代码删除安全性
|
||
|
||
- 删除 `_extract_trash_records` 和 `_build_trash_index` 前,确认无其他调用者
|
||
- `_aggregate_by_assistant_date` 移除 `trash_index` 参数后,确认所有调用点已同步更新
|
||
- 保留 `is_trash` 判断逻辑不变,确保废除统计功能不受影响
|
||
|
||
### 回滚策略
|
||
|
||
- DDL 变更通过迁移脚本管理,可通过反向迁移(CREATE TABLE)回滚
|
||
- 代码变更通过 Git 版本控制回滚
|
||
- ODS 表数据在删除前可选择性备份(数据量小,仅 78 条)
|
||
|
||
## 测试策略
|
||
|
||
### 属性测试
|
||
|
||
- 使用 `hypothesis` 库进行属性测试
|
||
- 每个属性测试至少运行 100 次迭代
|
||
- 每个测试用注释标注对应的设计属性编号
|
||
|
||
**Property 1 测试方案:**
|
||
- 生成随机服务记录列表(包含随机 `is_trash` 标记和 `income_seconds` 值)
|
||
- 调用 `_aggregate_by_assistant_date` 方法
|
||
- 验证 `trashed_seconds`/`trashed_count` 与手动计算的期望值一致
|
||
- 标签:`Feature: assistant-abolish-cleanup, Property 1: 废除聚合逻辑正确性`
|
||
|
||
**Property 2 测试方案:**
|
||
- 已由 `tests/test_property_1_fact_mappings.py` 覆盖
|
||
- 清理后运行 `pytest tests/ -v` 确认无回归
|
||
- 标签:`Feature: assistant-abolish-cleanup, Property 2: FACT_MAPPINGS 一致性`
|
||
|
||
### 单元测试
|
||
|
||
- 验证 `AssistantDailyTask` 不再有 `_extract_trash_records` 和 `_build_trash_index` 方法
|
||
- 验证 `_aggregate_by_assistant_date` 签名不包含 `trash_index` 参数
|
||
- 验证 FACT_MAPPINGS 不包含废除表条目
|
||
- 验证 TABLE_MAP 不包含废除表映射
|
||
- 验证 DwdVerifier 配置不包含废除表
|
||
|
||
### 集成验证
|
||
|
||
- 运行现有属性测试套件:`pytest tests/ -v`
|
||
- 运行 ETL 单元测试:`cd apps/etl/connectors/feiqiu && pytest tests/unit`
|
||
- 确认所有测试通过,无回归
|