在前后端开发联调前的提交20260223

2026-02-23 23:02:20 +08:00
parent 254ccb1e77
commit fafc95e64c
1142 changed files with 10366960 additions and 36957 deletions
--- a/.kiro/hooks/dataflow-analyze.kiro.hook
+++ b/.kiro/hooks/dataflow-analyze.kiro.hook
@@ -1,14 +1,14 @@
 {
  "enabled": true,
  "name": "Data Flow Structure Analysis",
-  "description": "手动触发数据流结构分析：先执行 Python 脚本采集 API JSON、DB 表结构、三层字段映射和 BD_manual 业务描述，再由报告生成器输出带锚点链接、业务描述、多示例值和字段差异报告的 Markdown 文档。",
-  "version": "3.0.0",
+  "description": "手动触发数据流结构分析：先执行 Python 脚本采集 API JSON、DB 表结构、三层字段映射和 BD_manual 业务描述，再由报告生成器输出带锚点链接、业务描述、多示例值、白名单折叠和字段差异报告的 Markdown 文档。",
+  "version": "4.0.0",
  "when": {
    "type": "userTriggered"
  },
  "then": {
    "type": "askAgent",
-    "prompt": "执行数据流结构分析，按以下步骤完成：\n\n第一阶段：数据采集\n1. 运行 `python scripts/ops/analyze_dataflow.py` 完成数据采集\n2. 确认采集结果已落盘，包括：\n   - json_trees/（含 samples 多示例值）\n   - db_schemas/\n   - field_mappings/（三层映射 + 锚点）\n   - bd_descriptions/（BD_manual 业务描述）\n   - collection_manifest.json（含 json_field_count）\n\n第二阶段：报告生成\n3. 运行 `python scripts/ops/gen_dataflow_report.py` 生成 Markdown 报告\n4. 报告包含以下增强内容：\n   - 总览表含 API JSON 字段数列\n   - 1.1 API↔ODS↔DWD 字段对比差异报告\n   - 2.3 覆盖率表含业务描述列\n   - API 源字段表含业务描述列 + 多示例值（枚举值解释）\n   - ODS 表结构含业务描述列 + 上下游双向映射锚点链接\n   - DWD 表结构含业务描述列 + ODS 来源锚点链接\n5. 输出文件路径和关键统计摘要\n\n注意：当前仅分析飞球（feiqiu）连接器。未来新增连接器时，应自动发现并纳入分析范围。"
+    "prompt": "执行数据流结构分析，按以下步骤完成。若发现已完成或有历史任务痕迹则清空，重新执行：\n\n第一阶段：数据采集\n1. 运行 `python scripts/ops/analyze_dataflow.py` 完成数据采集（如需指定日期范围，加 --date-from / --date-to 参数）\n2. 确认采集结果已落盘，包括：\n   - json_trees/（含 samples 多示例值）\n   - db_schemas/\n   - field_mappings/（三层映射 + 锚点）\n   - bd_descriptions/（BD_manual 业务描述）\n   - collection_manifest.json（含 json_field_count、date_from、date_to）\n\n第二阶段：报告生成\n3. 运行 `python scripts/ops/gen_dataflow_report.py` 生成 Markdown 报告\n4. 报告包含以下增强内容：\n   - 报告头含 API 请求日期范围（date_from ~ date_to）和 JSON 数据总量\n   - 总览表含 API JSON 字段数列\n   - 1.1 API↔ODS↔DWD 字段对比差异报告（白名单字段折叠汇总，不展开详细表格行）\n   - 2.3 覆盖率表含业务描述列\n   - API 源字段表含业务描述列 + 多示例值（枚举值解释）\n   - ODS 表结构含业务描述列 + 上下游双向映射锚点链接\n   - DWD 表结构含业务描述列 + ODS 来源锚点链接\n5. 输出文件路径和关键统计摘要\n\n白名单规则（v4）：\n- ETL 元数据列（source_file, source_endpoint, fetched_at, payload, content_hash）\n- DWD 维表 SCD2 管理列（valid_from, valid_to, is_current, etl_loaded_at, etl_batch_id）\n- API siteProfile 嵌套对象字段\n- 白名单字段仍正常参与检查和统计，仅在报告中折叠显示并注明原因\n\n注意：当前仅分析飞球（feiqiu）连接器。未来新增连接器时，应自动发现并纳入分析范围。"
  },
  "workspaceFolderName": "NeoZQYY",
  "shortName": "dataflow-analyze"
--- a/.kiro/hooks/etl-data-consistency.kiro.hook
+++ b/.kiro/hooks/etl-data-consistency.kiro.hook
@@ -0,0 +1,15 @@
+{
+  "enabled": true,
+  "name": "ETL Data Consistency Check",
+  "description": "手动触发 ETL 全链路数据一致性黑盒检查：获取最近一次成功的 ETL 任务，对 API→ODS→DWD→DWS/INDEX 逐表逐字段进行实际数据比对，输出详细的数据差异报告。",
+  "version": "1.0.0",
+  "when": {
+    "type": "userTriggered"
+  },
+  "then": {
+    "type": "askAgent",
+    "prompt": "执行 ETL 全链路数据一致性黑盒检查，按以下步骤完成，若发现已完成或有历史任务痕迹则清空，重新执行：\n\n1. 运行 `python scripts/ops/etl_consistency_check.py`\n2. 脚本会自动：\n   a. 从 LOG_ROOT 找到最近一次成功的 ETL 日志，解析本次执行的任务列表\n   b. 从 FETCH_ROOT 读取本次 ETL 落盘的 API JSON 文件\n   c. 连接数据库（PG_DSN），对本次任务涉及的每张表逐字段比对：\n      - API JSON vs ODS：字段完整性、值采样比对（随机 5 条记录的关键字段）\n      - ODS vs DWD：字段映射正确性、值转换验证（采样比对）\n      - DWD vs DWS/INDEX：聚合逻辑验证（行数、关键指标抽查）\n   d. 输出 Markdown 报告到 ETL_REPORT_ROOT\n3. 检查报告输出，汇总关键发现\n\n报告结构：\n- 1. ETL 执行概览（任务列表、成功/失败/跳过统计）\n- 2. API↔ODS 数据一致性（逐表逐字段值比对）\n- 3. ODS↔DWD 数据一致性（映射验证 + 值采样）\n- 4. DWD↔DWS 数据一致性（聚合逻辑验证）\n- 5. 异常汇总与建议\n\n注意：使用正式库 PG_DSN 连接（只读模式），不修改任何数据。"
+  },
+  "workspaceFolderName": "NeoZQYY",
+  "shortName": "etl-data-consistency"
+}