包含多个会话的累积代码变更: - backend: AI 聊天服务、触发器调度、认证增强、WebSocket、调度器最小间隔 - admin-web: ETL 状态页、任务管理、调度配置、登录优化 - miniprogram: 看板页面、聊天集成、UI 组件、导航更新 - etl: DWS 新任务(finance_area_daily/board_cache)、连接器增强 - tenant-admin: 项目初始化 - db: 19 个迁移脚本(etl_feiqiu 11 + zqyy_app 8) - packages/shared: 枚举和工具函数更新 - tools: 数据库工具、报表生成、健康检查 - docs: PRD/架构/部署/合约文档更新 Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>
2.7 KiB
2.7 KiB
P5.1→NS3 缺失项 #9:MCP Server 的健康检查端点和监控指标
简要结论
- 状态:⚠️ 部分解决
- 风险等级:🟡 低
- 后端 FastAPI 已有
/health端点,但 MCP Server(apps/mcp-server/server.py)无健康检查端点和监控指标
详细审查
审查范围
apps/backend/app/main.py— 后端主入口apps/mcp-server/server.py— MCP Server 实现apps/mcp-server/pyproject.toml— MCP Server 依赖配置
发现
✅ 后端 FastAPI 健康检查(已实现)
apps/backend/app/main.py 中定义了健康检查端点:
@app.get("/health", tags=["系统"])
async def health_check():
"""健康检查端点,用于探活和监控。"""
return {"status": "ok"}
此外还有诊断端点 /debug/config-paths,返回关键路径配置信息。
❌ MCP Server 健康检查(未实现)
apps/mcp-server/server.py 分析:
-
无
/health端点:MCP Server 基于 Starlette + MCP SDK 构建,lifespan函数仅管理数据库连接池的打开/关闭,无健康检查路由。 -
无监控指标:无请求计数、延迟统计、错误率等监控指标暴露。
-
有认证中间件:
AuthMiddleware验证 Bearer Token,但无健康检查的豁免路径。 -
MCP Server 架构:提供
list_tables、describe_table、query_sql等数据库查询工具,通过 SSE 协议与 AI 客户端通信。当前无法从外部探测其存活状态。 -
数据库连接池:
lifespan中pool.open(wait=True, timeout=30)管理连接池,但连接池健康状态未暴露。
证据
后端健康检查(main.py):
@app.get("/health", tags=["系统"])
async def health_check():
return {"status": "ok"}
MCP Server lifespan(server.py L385-391):
async def lifespan(app: Starlette):
pool.open(wait=True, timeout=30)
try:
async with mcp.session_manager.run():
yield
finally:
pool.close(timeout=5)
MCP Server 无 health 路由:搜索 health|ping|status|monitor 在 apps/mcp-server/ 中无匹配结果。
建议
- 为 MCP Server 添加
/health端点:在 Starlette 应用中注册健康检查路由,返回连接池状态和服务版本@app.route("/health") async def health(request): pool_status = "ok" if pool._pool and not pool._pool.closed else "degraded" return JSONResponse({"status": pool_status, "service": "mcp-server"}) - 健康检查豁免认证:在
AuthMiddleware.dispatch中对/health路径跳过 Token 验证 - 可选:暴露基础监控指标:请求计数、平均延迟、连接池使用率等(可通过 Prometheus 格式暴露)