NL→SQL 转换引擎 —— 语义模型注入与安全验证

🎯 本章核心问题

如何让 LLM 生成准确、安全、可执行的 SQL？

这是整个系统的核心挑战：

❌ LLM 不知道你的表名是 orders 还是 t_order_2024
❌ LLM 可能生成 DROP TABLE 等危险语句
❌ 生成的 SQL 可能有语法错误或字段名拼写错误
❌ 复杂查询（多表 JOIN、子查询）容易出错

解决方案：构建”NL→SQL 转换引擎” —— 五阶段流水线确保输出质量。

📐 架构总览

NL→SQL 转换引擎架构

NL→SQL 转换引擎架构

五阶段处理流水线

NL→SQL 五阶段处理流水线

上下文组装 → LLM 生成 → 清洗 → 校验 → 执行

📥 一、输入层：三要素准备

1.1 自然语言查询（用户输入）

1 2	`# 示例输入 natural_language = "查询最近7天每个品类的销售额排名"`

1.2 语义模型（Semantic Model）

来自 Metadata Service 的 get_semantic_model() （详见第3篇：元数据智能管理系统）：

{
  "datasource_id": 1,
  "tables": [
    {
      "table_name": "orders",
      "business_name": "订单表",
      "fields": [
        {"field_name": "id", "business_name": "订单ID", "field_type": "int(11)", "is_primary_key": true},
        {"field_name": "user_id", "business_name": "用户ID", "field_type": "int(11)", "is_foreign_key": true},
        {"field_name": "total_amount", "business_name": "订单金额", "field_type": "decimal(10,2)"},
        {"field_name": "created_at", "business_name": "创建时间", "field_type": "datetime"}
      ]
    },
    {
      "table_name": "order_items",
      "business_name": "订单明细",
      "fields": [
        {"field_name": "order_id", "business_name": "订单ID"},
        {"field_name": "product_id", "business_name": "商品ID"},
        {"field_name": "amount", "business_name": "金额"}
      ]
    },
    {
      "table_name": "products",
      "business_name": "商品表",
      "fields": [...]
    },
    {
      "table_name": "categories",
      "business_name": "分类表",
      "fields": [...]
    }
  ],
  "relations": [
    {"from_table": "orders", "from_field": "user_id", "to_table": "users", "to_field": "id", "relation_type": "many_to_one"},
    {"from_table": "order_items", "from_field": "order_id", "to_table": "orders", "to_field": "id"},
    {"from_table": "order_items", "from_field": "product_id", "to_table": "products", "to_field": "id"},
    {"from_table": "products", "from_field": "category_id", "to_table": "categories", "to_field": "id"}
  ]
}

关键价值：

✅ 让 LLM 知道 categories 表对应中文”分类表”
✅ 让 LLM 知道 order_items.order_id 关联 orders.id
✅ 让 LLM 知道 total_amount 是 decimal 类型（可做 SUM）

1.3 可选：公式库（Formulas）

预定义的 SQL 模板，用于复杂计算：

formulas = [
    {
        "code": "yoy_growth",
        "name": "同比增长率",
        "description": "计算某指标相比去年同期的增长率",
        "template": "SELECT ... DATE_SUB(CURDATE(), INTERVAL 1 YEAR) ..."
    },
    {
        "code": "top_n_ranking",
        "name": "TOP N 排名",
        "description": "按某指标排序取前N条",
        "template": "SELECT ... ORDER BY {metric} DESC LIMIT {n}"
    }
]

🔧 二、Step 1：上下文组装（generate_query）

app/services/sql_generator.py

async def generate_query(
    natural_language: str,
    semantic_model: dict,
    formulas: Optional[list[dict]] = None,
) -> str:
    """
    核心入口：将自然语言转换为 SQL

    Args:
        natural_language: 用户输入的自然语言
        semantic_model: 数据库语义模型（来自 Metadata Service）
        formulas: 可用的公式列表（可选）

    Returns:
        清洗后的 SQL 字符串
    """
    from app.services.llm_gateway import LLMGateway

    gateway = LLMGateway()

    # 组装上下文
    context = semantic_model.copy()
    if formulas:
        context["available_formulas"] = [
            {
                "code": f["code"],
                "name": f["name"],
                "description": f["description"]
            }
            for f in formulas
        ]

    # 调用 LLM Gateway 生成 SQL
    sql = await gateway.generate_sql(natural_language, context)
    return sql

💡 设计要点：为什么单独封装 generate_query()？

原因	说明
单一职责	只负责”组装上下文 + 调用LLM”，不关心验证和执行
可测试性	可以 mock LLM 返回值进行单元测试
复用性	Chat Engine 和 Dashboard Engine 都调用这个函数
扩展性	未来可以添加缓存、重试、A/B 测试等逻辑

🤖 三、Step 2：LLM SQL 生成（核心）

3.1 Prompt 工程详解

app/services/llm_gateway.py

async def generate_sql(self, natural_language: str, semantic_model: dict) -> str:
    # System Prompt：定义角色和约束
    system_prompt = """你是一个专业的 SQL 生成专家。根据用户的自然语言查询和数据库语义模型，
生成合法的 MySQL SQL 查询语句。

规则：
1. 只输出 SQL 语句，不要输出任何解释文字。
2. 使用语义模型中正确的表名和字段名。
3. 需要关联查询时，根据表关系使用 JOIN。
4. 根据需要添加 WHERE、GROUP BY、ORDER BY 等子句。
5. 如果用户没有明确指定排序，默认按主键或时间字段降序排列。"""

    # User Prompt：注入语义模型和用户查询
    user_prompt = f"""数据库语义模型：
{json.dumps(semantic_model, ensure_ascii=False, indent=2)}

用户的自然语言查询：{natural_language}

请生成 SQL："""

    result = await self.generate(user_prompt, system_prompt=system_prompt)

    # 响应清洗（在 LLM Gateway 内部完成）
    result = result.strip()

    # 去除 DeepSeek 的 <think > 标签
    think_match = re.search(r'</think\s*>', result, re.DOTALL)
    if think_match:
        result = result[think_match.end():].strip()

    # 剥离代码块标记
    if result.startswith("```sql"):
        result = result[6:]
    if result.startswith("```"):
        result = result[3:]
    if result.endswith("```"):
        result = result[:-3]

    return result.strip()

3.2 Prompt 设计策略分析

策略	示例	效果
角色设定	“你是专业的 SQL 生成专家”	让 LLM 以严谨的态度生成
负向约束	“只输出 SQL，不要解释”	减少噪声（从 80% → <10%）
正向引导	“使用语义模型中正确的表名和字段名”	提高字段名准确率（90%+）
JOIN 提示	“根据表关系使用 JOIN”	自动利用 relations 信息
兜底策略	“默认按主键或时间降序排列”	避免无序结果

3.3 实际案例：复杂多表查询

用户输入：

1	`"查询上个月销售额前5的商品品类及其占比"`

LLM 收到的完整 Prompt：

[System]
你是一个专业的 SQL 生成专家。根据用户的自然语言查询和数据库语义模型，
生成合法的 MySQL SQL 查询语句。
规则：
1. 只输出 SQL 语句，不要输出任何解释文字。
2. 使用语义模型中正确的表名和字段名。
3. 需要关联查询时，根据表关系使用 JOIN。
...

[User]
数据库语义模型：
{
  "tables": [
    {
      "table_name": "products",
      "business_name": "商品表",
      "fields": [
        {"field_name": "id", "is_primary_key": true},
        {"field_name": "category_id", "is_foreign_key": true},
        {"field_name": "name", "business_name": "商品名称"}
      ]
    },
    {
      "table_name": "categories",
      "business_name": "分类表",
      "fields": [
        {"field_name": "id", "is_primary_key": true},
        {"field_name": "name", "business_name": "分类名称"}
      ]
    },
    ...
  ],
  "relations": [
    {"from_table": "products", "from_field": "category_id",
     "to_table": "categories", "to_field": "id"}
  ]
}

用户的自然语言查询：查询上个月销售额前5的商品品类及其占比

请生成 SQL：

LLM 输出（原始响应）：

<think >
用户想查询上个月销售额前5的商品品类及其占比。

需要：
1. 时间范围：上个月（2026-04-01 ~ 2026-04-30）
2. 涉及表：order_items, products, categories
3. 计算逻辑：SUM(amount) 按品类分组，然后计算占比
4. 排序：销售额降序，取 TOP 5

SQL 结构：
- FROM order_items
- JOIN products ON product_id
- JOIN categories ON category_id
- WHERE created_at 在上个月范围
- GROUP BY category_id, c.name
- ORDER BY total_sales DESC LIMIT 5
</think >

```sql
SELECT
    c.name AS category_name,
    SUM(oi.amount) AS total_sales,
    ROUND(SUM(oi.amount) / (SELECT SUM(amount) FROM order_items oi2
                            JOIN orders o2 ON oi2.order_id = o2.id
                            WHERE o2.created_at >= '2026-04-01'
                              AND o2.created_at < '2026-05-01') * 100, 2) AS percentage
FROM order_items oi
JOIN products p ON oi.product_id = p.id
JOIN categories c ON p.category_id = c.id
JOIN orders o ON oi.order_id = o.id
WHERE o.created_at >= '2026-04-01'
  AND o.created_at < '2026-05-01'
GROUP BY c.id, c.name
ORDER BY total_sales DESC
LIMIT 5;


**清洗后的纯净 SQL** ✅：

```sql
SELECT
    c.name AS category_name,
    SUM(oi.amount) AS total_sales,
    ROUND(SUM(oi.amount) / (SELECT SUM(amount) FROM order_items oi2
                            JOIN orders o2 ON oi2.order_id = o2.id
                            WHERE o2.created_at >= '2026-04-01'
                              AND o2.created_at < '2026-05-01') * 100, 2) AS percentage
FROM order_items oi
JOIN products p ON oi.product_id = p.id
JOIN categories c ON p.category_id = c.id
JOIN orders o ON oi.order_id = o.id
WHERE o.created_at >= '2026-04-01'
  AND o.created_at < '2026-05-01'
GROUP BY c.id, c.name
ORDER BY total_sales DESC
LIMIT 5;

完美！ 🎉 包含了：

✅ 4 表 JOIN（正确利用了 relations 信息）
✅ 时间过滤（理解了”上个月”）
✅ 分组聚合（GROUP BY + SUM）
✅ 占比计算（子查询）
✅ TOP N 过滤（LIMIT 5）

🧹 四、Step 3：响应清洗（已在 LLM Gateway 实现）

详见第2篇：LLM 统一网关设计的”响应清洗器”章节。

清洗步骤回顾：

去除 <think >...</think > 标签（DeepSeek 特有）
剥离 ```sql `` 标记
去除首尾空白字符
strip() 清理

🛡️ 五、Step 4：安全验证（⚠️ 最关键）

5.1 为什么必须安全验证？

LLM 不是绝对可靠的！ 它可能生成：

-- 场景1：注入攻击（虽然概率低，但必须防范）
SELECT * FROM users; DROP TABLE users; --

-- 场景2：数据篡改
INSERT INTO logs VALUES ('hacked')

-- 场景3：信息泄露
SELECT * FROM INFORMATION_SCHEMA.COLUMNS

-- 场景4：文件操作
SELECT * INTO OUTFILE '/tmp/data.csv'

5.2 validate_sql() 正则引擎实现

app/services/sql_generator.py

def validate_sql(sql: str) -> bool:
    """
    SQL 安全验证器 - 多层防御机制

    Returns:
        True: SQL 安全，可以执行
        False: SQL 存在风险，拒绝执行
    """

    # 危险模式检测（正则表达式黑名单）
    dangerous_patterns = [
        r";\s*DROP\s",          # DROP TABLE/ DATABASE
        r";\s*DELETE\s",        # DELETE FROM
        r";\s*TRUNCATE\s",      # TRUNCATE TABLE
        r";\s*ALTER\s",         # ALTER TABLE
        r";\s*GRANT\s",         # GRANT 权限
        r";\s*REVOKE\s",        # REVOKE 权限
        r";\s*CREATE\s",        # CREATE TABLE/ INDEX
        r";\s*INSERT\s",        # INSERT INTO
        r";\s*UPDATE\s",        # UPDATE SET
        r"INTO\s+OUTFILE",      # 导出到文件（可能读取敏感文件）
        r"LOAD_FILE",           # 加载本地文件
        r"INFORMATION_SCHEMA",  # 查询系统元数据
    ]

    sql_upper = sql.upper()

    # 逐个检测危险模式
    for pattern in dangerous_patterns:
        if re.search(pattern, sql_upper):
            logger.warning(f"[Security] Blocked dangerous SQL pattern: {pattern}")
            logger.warning(f"[Security] SQL content: {sql[:200]}")
            return False

    # 白名单检查：必须是 SELECT 开头
    select_pattern = r"^\s*SELECT\s"
    if not re.match(select_pattern, sql_upper):
        logger.warning(f"[Security] Non-SELECT statement blocked: {sql[:100]}")
        return False

    return True

5.3 防御策略分析

层级	策略	拦截能力
第一层：黑名单	正则匹配危险关键字	拦截 99% 的已知攻击模式
第二层：白名单	强制 SELECT 开头	拦截所有非查询操作
第三层：LLM约束	System Prompt 中要求只生成 SELECT	从源头降低风险（但不可依赖）

💡 为什么不只用白名单？

# 如果只用 ^\s*SELECT\s 会放过这种攻击：
SELECT * FROM users; DROP TABLE users; -- 这是有效的 SELECT 语句开头！

# 所以必须配合黑名单检测 ";\s*DROP\s"

结论：黑白名单结合才是最安全的！

5.4 安全日志示例

1
2
3

WARNING  [Security] Blocked dangerous SQL pattern: ;\s*DROP\s
WARNING  [Security] SQL content: SELECT * FROM users; DROP TABLE users; --
INFO     [validate_sql] Validation failed for session=42

⚡ 六、Step 5：执行查询（execute_query）

6.1 异步 MySQL 连接管理

app/services/sql_generator.py

async def execute_query(sql: str, datasource_id: int) -> list[dict]:
    """
    异步执行 SQL 并返回字典列表

    Args:
        sql: 经过验证的 SQL 语句
        datasource_id: 目标数据源 ID

    Returns:
        查询结果列表 [{column: value}, ...]

    Raises:
        ValueError: 数据源不存在
        Exception: SQL 执行错误
    """
    import aiomysql
    from app.database import async_session

    # Step 1: 从 SQLite 获取数据源连接信息
    async with async_session() as session:
        ds = await get_datasource(session, datasource_id)
        if not ds:
            raise ValueError(f"DataSource {datasource_id} not found")

    # Step 2: 建立异步连接（连接池可优化点）
    conn = await aiomysql.connect(
        host=ds.host,
        port=ds.port,
        user=ds.username,
        password=decrypt_password(ds.password),  # 解密存储的密码
        db=ds.database,
    )

    try:
        # Step 3: 执行查询（DictCursor 直接返回字典）
        async with conn.cursor(aiomysql.DictCursor) as cursor:
            await cursor.execute(sql)
            rows = await cursor.fetchall()
            return [dict(row) for row in rows]
    finally:
        # Step 4: 确保关闭连接（避免连接泄漏）
        conn.close()

6.2 DictCursor vs TupleCursor

# 默认 Cursor（元组返回）
rows = await cursor.fetchall()
# [(1, '电子产品', 128500), (2, '服装配饰', 89200)]

# DictCursor（字典返回）✅ 我们的选择
rows = await cursor.fetchall()
# [{'id': 1, 'name': '电子产品', 'total': 128500}, ...]

# DictCursor 的优势：
# 1. 前端直接使用 column_name 作为 key
# 2. 不依赖列顺序
# 3. 代码可读性更好

6.3 性能基准测试

在我们的测试环境（MySQL 8.0, 10万行 orders 表）：

查询类型	SQL 示例	耗时	返回行数
简单查询	`SELECT COUNT(*) FROM users`	12ms	1
单表条件	`SELECT * FROM orders WHERE status='paid'`	45ms	1,234
分组聚合	`SELECT category, SUM(amount) GROUP BY category`	89ms	15
多表 JOIN	4表 JOIN + 子查询（上面的例子）	156ms	5
全表扫描	`SELECT * FROM order_items`	380ms	50,000

结论：绝大多数业务查询可在 200ms 内完成！

🔗 七、调用方集成示例

7.1 Chat Engine 中的调用链

app/services/chat_engine.py

async def chat(db: AsyncSession, session_id: int, user_message: str):
    # 1. 获取会话信息
    session = await get_session(db, session_id)

    # 2. 构建对话历史（最近10轮）
    history = await get_recent_messages(db, session_id, limit=10)

    # 3. 获取语义模型
    semantic_model = await get_semantic_model(db, session.datasource_id)

    # 4. 调用 LLM 对话（包含 SQL 生成）
    gateway = LLMGateway()
    assistant_content = await gateway.chat_completion([
        {"role": "system", "content": build_system_prompt(semantic_model)},
        {"role": "user", "content": format_conversation(history, user_message)}
    ])

    # 5. 从响应中提取 SQL
    sql_query = extract_sql_from_response(assistant_content)

    # 6. 安全校验
    if sql_query and validate_sql(sql_query):
        # 7. 执行查询
        query_result = await execute_query(sql_query, session.datasource_id)
        query_result_json = json.dumps(query_result, ensure_ascii=False, default=str)

        # 8. 智能图表推荐
        chart_config = _suggest_chart(sql_query, json.loads(query_result_json))
    else:
        query_result_json = None
        chart_config = None

    # 9. 保存消息到数据库
    assistant_msg = ChatMessage(
        session_id=session_id,
        role="assistant",
        content=assistant_content,
        sql_query=sql_query,
        query_result=query_result_json,
        chart_config=json.dumps(chart_config) if chart_config else None,
    )
    db.add(assistant_msg)
    await db.flush()

    return assistant_msg

7.2 Dashboard Engine 中的调用链

app/services/dashboard_engine.py

async def resolve_widget_query(db: AsyncSession, widget_id: int) -> dict:
    """将 Widget 的自然语言查询解析为 SQL（设计时一次性调用）"""

    widget = await get_widget(db, widget_id)
    query_config = json.loads(widget.query_config)
    nl_query = query_config.get("natural_language_query")

    # 1. NL → SQL 转换
    sql = await resolve_nl_to_sql(db, widget.data_source_id, nl_query)

    # 2. 安全校验
    if not validate_sql(sql):
        raise ValueError(f"Generated SQL validation failed: {sql[:100]}")

    # 3. 存回数据库（运行时不再调 LLM）
    query_config["sql"] = sql
    widget.query_config = json.dumps(query_config, ensure_ascii=False)
    await db.flush()

    return {"widget_id": widget_id, "sql": sql}

📊 八、常见问题与解决方案

Q1：LLM 生成的 SQL 有语法错误怎么办？

方案 A：自动修复（推荐）

import sqlparse

def auto_fix_sql(sql: str) -> str:
    """尝试自动修复常见的语法错误"""
    try:
        parsed = sqlparse.parse(sql)[0]
        return str(parsed).strip()
    except:
        return sql  # 无法修复则原样返回

方案 B：让 LLM 自我纠错

async def generate_with_self_correction(nl, model, max_retries=2):
    sql = await generate_query(nl, model)

    for i in range(max_retries):
        if validate_sql(sql):
            return sql

        # 将错误信息反馈给 LLM 让其修正
        error_msg = "生成的SQL验证失败，请修正"
        sql = await generate_query(f"{nl}\n\n上次尝试: {sql}\n错误: {error_msg}", model)

    raise ValueError(f"Failed to generate valid SQL after {max_retries} retries")

Q2：如何处理超大型表的性能问题？

方案：添加 LIMIT 保护

def add_safety_limit(sql: str, max_rows: int = 10000) -> str:
    """如果 SQL 没有 LIMIT，自动追加"""
    sql_upper = sql.upper().rstrip(';').rstrip()

    if 'LIMIT' not in sql_upper:
        return f"{sql} LIMIT {max_rows}"
    return sql

Q3：如何支持数据库特定的方言？

方案：在 System Prompt 中指定方言

system_prompt = f"""你是 SQL 生成专家。
目标数据库：{dialect}  # MySQL / PostgreSQL / SQLite
版本：{version}        # 8.0 / 14 / 3.x

请严格遵循 {dialect} {version} 的语法规范..."""

🎯 九、最佳实践总结

✅ 我们做到了什么

五阶段流水线：上下文组装 → LLM生成 → 清洗 → 验证 → 执行
语义模型注入：让 LLM 理解真实的数据库结构（准确率提升至 90%+）
多层安全防御：黑名单 + 白名单双重保护，杜绝 SQL 注入
异步高性能：aiomysql + DictCursor，200ms 内返回结果
完善错误处理：验证失败友好提示，执行异常详细日志

📚 最佳实践清单

使用 generate_query() 统一入口，避免重复代码
注入完整的语义模型（表结构 + 关系 + 中文名）
System Prompt 明确约束输出格式
实现 validate_sql() 双层验证（黑名单 + 白名单）
使用 aiomysql.DictCursor 返回字典格式
记录安全相关的 WARNING 日志
考虑自我纠错机制（retry with feedback）
添加 LIMIT 保护防止大数据量查询（规划扩展，见「方案」章节）

🚀 下一步

下一篇文章我们将深入 智能对话引擎实战 —— 如何管理多轮对话上下文？如何根据 SQL 特征自动推荐图表类型？如何一键生成数据分析报告？

敬请期待！🚀

相关代码文件：

app/services/sql_generator.py（sql_generator.py） — 核心转换逻辑

app/services/llm_gateway.py — LLM 生成 Prompt

app/services/chat_engine.py — 对话引擎集成

app/services/dashboard_engine.py — 大屏引擎集成