Windows GBK 环境下 psycopg2/libpq 在拼接连接字符串时,会读取系统
用户名 / 计算机名,若含中文(0xd6 是 GBK 首字节)会触发
UnicodeDecodeError。admin_db_health.py:105-115 已用显式 DSN +
PGCLIENTENCODING 修过,但 database.py 中的 4 个 connect 函数遗漏。
变更:
- apps/backend/app/database.py
- 新增 _CONN_KWARGS = {**_KEEPALIVE_KWARGS, "client_encoding": "UTF8"}
- 4 处 psycopg2.connect 调用从 **_KEEPALIVE_KWARGS 改为 **_CONN_KWARGS:
* get_connection(zqyy_app 业务库)
* get_etl_global_readonly_connection(ETL 全局只读)
* get_etl_readonly_connection(ETL RLS 只读)
* get_etl_write_connection(ETL 可写)
业务影响:
- 影响 75+ 调用点(grep 统计),Windows GBK 环境下未来出现
UnicodeDecodeError 概率大幅降低
- Linux UTF-8 环境无影响
- ETL RLS / FDW 链路无逻辑变化(client_encoding 是协议层)
验证:
- 后端 reload + /health 200 OK
- /api/admin/db-health 测试库 connected(test_zqyy_app + test_etl_feiqiu)
- BE-3 / T3 unit test 5/5 PASS,间接证明 ETL 连接链路无破坏
§3.3 标"sandbox 无关",4b 跳过(client_encoding 是协议层,与 sandbox
业务时钟无关)。
未加 feature flag ETL_FORCE_UTF8(§8.3 兜底建议):client_encoding=UTF8
是 PostgreSQL 默认安全设置,无需 flag 控制。若未来出现特殊业务字段
含非 UTF-8 字节再考虑加 flag。
审计:docs/audit/changes/2026-05-05__wave1_f1_5b_a6_etl_conn_utf8.md
Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>
apps/
作用说明
应用项目顶层目录,存放所有可独立部署/运行的子项目。当前包含 ETL Connector、FastAPI 后端、微信小程序前端,以及预留的管理后台。
内部结构
etl/pipelines/feiqiu/— 飞球 Connector(数据源连接器,抽取→清洗→汇总全流程)backend/— FastAPI 后端(小程序 API、权限、审批)miniprogram/— 微信小程序前端(Donut + TDesign)admin-web/— 管理后台(预留,暂未实施)mcp-server/— MCP Server(为百炼 AI 应用提供 PostgreSQL 只读查询)
Roadmap
- 新增更多 Connector 时,在
etl/pipelines/下按平台名创建子目录 admin-web/待产品需求确认后启动