釜底抽薪：通过API逆向还原核心模型功能的模型窃取攻击实战

当企业将AI模型通过API形式提供服务时，攻击者不再需要物理访问或网络渗透，仅通过合法的API调用，就有可能逆向复制出一个功能高度相似的“克隆模型”。是一种针对机器学习模型的攻击，其核心目标是在不访问模型内部参数和结构的情况下，仅通过查询模型的API接口，利用其返回的预测结果，来训练一个功能上高度相似的“克隆模型”或“替代模型” (Surrogate Model)。你无法进入他的厨房偷看配方（访问

Alfadi联盟萧瑶

1524人浏览 · 2026-02-18 10:13:26

Alfadi联盟萧瑶 · 2026-02-18 10:13:26 发布

郑重声明： 本文所有攻击演示和代码仅限于授权测试环境中使用。未经授权的任何测试行为均属违法，读者需自行承担所有法律责任。

前言

技术背景
在当前的AI攻防体系中，针对模型本身的攻击正变得日益普遍。模型窃取 (Model Stealing) 攻击，特别是通过API进行的模型萃取 (Model Extraction)，属于数据安全和算法安全交叉领域的核心威胁之一。当企业将AI模型通过API形式提供服务时，攻击者不再需要物理访问或网络渗透，仅通过合法的API调用，就有可能逆向复制出一个功能高度相似的“克隆模型”。这在整个攻击链中，处于应用层攻击和商业机密窃取的关键位置。
学习价值
掌握模型窃取攻击的原理与实战方法，能让您解决以下关键问题：
- 评估风险：能够准确评估自家AI服务面临的模型泄露风险有多大。
- 模拟攻击：作为攻击方（红队），可以模拟真实的黑客攻击，检验防御体系的有效性。

构建防御：作为防御方（蓝队），能够理解攻击者的手段，从而设计出更坚固的防御策略和检测机制。
提升认知：深入理解机器学习模型“输入-输出”黑盒的脆弱性，为设计更安全的AI系统打下基础。

使用场景
模型窃取攻击在实际中主要应用于：
- 商业竞争：竞争对手通过窃取核心模型，快速复制产品功能，节省巨额研发成本。
- 对抗性攻击：攻击者先窃取一个替代模型，然后在本地研究其漏洞，进而发起更精准的对抗性样本攻击 (Adversarial Attacks)，导致线上服务瘫痪或出错。
- 安全审计：安全服务商或企业内部安全团队，通过模拟模型窃取来评估和加固AI应用。

一、模型窃取是什么

1. 精确定义

模型窃取 (Model Stealing) 是一种针对机器学习模型的攻击，其核心目标是在不访问模型内部参数和结构的情况下，仅通过查询模型的API接口，利用其返回的预测结果，来训练一个功能上高度相似的“克隆模型”或“替代模型” (Surrogate Model)。这种攻击属于黑盒攻击，因为攻击者对目标模型的内部一无所知。

2. 一个通俗类比

想象一下，你想复制一位神秘厨师的秘制酱料配方。你无法进入他的厨房偷看配方（访问模型参数），但你可以不断地点菜（发送API请求），品尝每道菜的味道（获取模型预测结果）。

你找来各种食材（构造查询数据），比如“多放点酱油”、“加一点糖”，然后品尝味道的变化。通过成千上万次的品尝和记录，你逐渐摸清了酱料的成分和比例规律，最终在自己家里调配出味道几乎一模一样的复制品。

在这个比喻中：

神秘厨师 = 目标AI模型
秘制酱料配方 = 模型的核心参数和逻辑
点菜/品尝 = 调用API并获取预测结果
你的复制品 = 窃取到的克隆模型

3. 实际用途

模型窃取攻击的实际用途非常明确且具有高价值：

功能复现：直接复制一个付费AI服务，以极低成本实现相同功能。
漏洞挖掘：在窃取的本地模型上无限次、低成本地寻找漏洞（如对抗性样本），再用于攻击线上真实模型。
数据隐私泄露：通过分析窃取模型的决策边界，可能可以反推出训练数据中的敏感信息，构成成员推理攻击 (Membership Inference Attacks)。

4. 技术本质说明

模型窃取的技术本质是函数近似 (Function Approximation)。任何一个机器学习模型，无论其内部结构多复杂（决策树、神经网络、SVM等），从外部看都是一个输入向量 $X$ 到输出向量 $Y$ 的映射函数 $F$ ： $Y = F (X)$ 。

攻击者的目标就是找到一个近似函数 $F^{'}$ ，使得对于大量的输入 $X$ ，都有 $\approx F(X)$ 。

攻击者通过以下流程实现这一目标，其核心机制可以用下面的Mermaid图清晰展示：

这张图清晰地展示了攻击者、目标API和克隆模型之间的交互时序，以及从数据收集到模型训练再到最终使用的完整流程。

二、环境准备

我们将模拟一次针对决策树分类模型的窃取攻击。决策树模型因其清晰的决策边界，是模型窃取教学的绝佳对象。

1. 目标服务

我们首先用Python的scikit-learn库创建一个简单的鸢尾花分类模型，并用Flask将其封装成一个API服务。这个服务就是我们的攻击目标。

target_api.py (目标服务代码)

# 语言: python
# 作用: 搭建一个基于Flask的、使用决策树模型进行鸢尾花分类的API

from flask import Flask, request, jsonify
from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier
import numpy as np

# --- 模型训练 ---
# 加载数据
iris = load_iris()
X, y = iris.data, iris.target

# 训练一个决策树模型
model = DecisionTreeClassifier(max_depth=3, random_state=42)
model.fit(X, y)

print("模型训练完毕，已准备好提供API服务。")
print(f"特征: {iris.feature_names}")
print(f"分类: {list(iris.target_names)}")

# --- API服务 ---
app = Flask(__name__)

@app.route('/predict', methods=['POST'])
def predict():
    try:
        data = request.get_json(force=True)
        # 输入格式: {"features": [5.1, 3.5, 1.4, 0.2]}
        features = np.array(data['features']).reshape(1, -1)
        
        # 进行预测
        prediction = model.predict(features)
        probability = model.predict_proba(features)
        
        # 返回预测类别和置信度
        response = {
            'prediction': int(prediction[0]),
            'class_name': iris.target_names[prediction[0]],
            'probability': probability.tolist()[0]
        }
        return jsonify(response)

    except Exception as e:
        return jsonify({'error': str(e)}), 400

if __name__ == '__main__':
    # 在本地5000端口运行
    app.run(port=5000, debug=False)

2. 工具版本与下载方式

Python: 3.8+
依赖库: Flask, scikit-learn, numpy, requests

通过pip一键安装所有依赖：

pip install Flask scikit-learn numpy requests

3. 核心配置命令

无需特殊配置。只需确保Python环境和上述库已正确安装。

4. 可运行环境命令

将上面的target_api.py代码保存。
在终端中运行目标API服务：
```
python target_api.py
```
看到输出“模型训练完毕，已准备好提供API服务。”后，打开一个新的终端窗口，用于执行我们接下来的攻击脚本。服务运行在 http://127.0.0.1:5000。

三、核心实战：模型窃取教程

我们的实战目标是：通过不断查询/predict接口，构建一个数据集，然后用这个数据集训练出一个我们自己的决策树模型，使其功能与服务器上的target_api模型高度一致。

1. 步骤一：数据查询与收集

我们需要生成大量随机数据点，发送给API，并将API的返回结果（特别是预测的类别）保存下来。

目的：创建用于训练克隆模型的数据集 (X_synthetic, y_api_labels)。

2. 步骤二：克隆模型训练

使用上一步收集到的数据集，训练一个新的、我们完全控制的本地模型。

目的：得到一个功能近似于目标模型的克隆模型。

3. 步骤三：效果验证

比较原始模型和克隆模型在同一份测试集上的表现，验证窃取是否成功。

目的：量化窃取效果，通常用准确率一致性来衡量。

4. 完整可运行示例与自动化脚本

下面的stealing_script.py脚本将上述三个步骤完全自动化。它包含了详细的注释、错误处理和可调参数。

stealing_script.py (模型窃取攻击脚本)

# 语言: python
# 作用: 自动化执行模型窃取攻击，从目标API窃取一个决策树模型
# 警告: 本脚本仅可用于经授权的渗透测试环境，严禁用于非法用途！

import requests
import numpy as np
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score
from sklearn.datasets import load_iris
import time

# --- 参数配置 ---
TARGET_API_URL = "http://127.0.0.1:5000/predict"
NUM_QUERIES = 2000  # 查询API的次数，越高窃取效果越好，但成本也越高
# 鸢尾花数据集特征的合理范围
FEATURE_MIN = [4.0, 2.0, 1.0, 0.1]
FEATURE_MAX = [8.0, 4.5, 7.0, 2.5]

def query_target_api(features):
    """
    查询目标API并获取预测结果
    """
    try:
        response = requests.post(TARGET_API_URL, json={"features": features})
        response.raise_for_status()  # 如果请求失败 (如 4xx, 5xx), 抛出异常
        return response.json()['prediction']
    except requests.exceptions.RequestException as e:
        print(f"[-] API请求失败: {e}")
        return None

def main():
    """
    主函数，执行模型窃取全流程
    """
    print("--- [阶段一：数据收集] ---")
    print(f"[*] 准备向 {TARGET_API_URL} 发起 {NUM_QUERIES} 次查询...")
    
    synthetic_data = []
    api_labels = []
    
    start_time = time.time()
    for i in range(NUM_QUERIES):
        # 1. 生成随机的、在合理范围内的特征数据
        random_features = [np.random.uniform(FEATURE_MIN[j], FEATURE_MAX[j]) for j in range(4)]
        
        # 2. 查询API获取标签
        label = query_target_api(random_features)
        
        if label is not None:
            synthetic_data.append(random_features)
            api_labels.append(label)
        
        # 打印进度
        if (i + 1) % 200 == 0:
            print(f"    已完成查询: {i + 1}/{NUM_QUERIES}")

    end_time = time.time()
    print(f"[+] 数据收集完成！共获得 {len(api_labels)} 条有效数据，耗时 {end_time - start_time:.2f} 秒。")

    if not api_labels:
        print("[-] 未能从API获取任何数据，攻击中止。")
        return

    X_synthetic = np.array(synthetic_data)
    y_api_labels = np.array(api_labels)

    print("\n--- [阶段二：克隆模型训练] ---")
    # 3. 使用收集到的数据训练我们自己的模型
    # 我们猜测对方可能也是决策树，所以也用决策树来克隆
    cloned_model = DecisionTreeClassifier(max_depth=3, random_state=42)
    cloned_model.fit(X_synthetic, y_api_labels)
    print("[+] 克隆模型训练完成！")

    print("\n--- [阶段三：效果验证] ---")
    # 4. 使用原始的鸢尾花测试数据来验证克隆模型的效果
    # 注意：在真实场景中，我们没有这个测试集，但这里用于教学演示
    iris = load_iris()
    X_test, y_test = iris.data, iris.target # 简单起见，用全集做测试

    # 获取目标模型的真实预测结果作为基准
    print("[*] 正在获取目标API在测试集上的预测结果作为基准...")
    target_model_predictions = []
    for features in X_test:
        prediction = query_target_api(features.tolist())
        if prediction is not None:
            target_model_predictions.append(prediction)
    
    if not target_model_predictions:
        print("[-] 无法获取基准预测，验证中止。")
        return

    # 获取克隆模型的预测结果
    cloned_model_predictions = cloned_model.predict(X_test)

    # 5. 比较两个模型的预测一致性（Fidelity）
    fidelity = accuracy_score(target_model_predictions, cloned_model_predictions)
    print(f"\n[SUCCESS] 模型窃取成功！")
    print(f"    => 克隆模型与目标模型在鸢尾花数据集上的预测一致性 (Fidelity): {fidelity:.4f}")
    
    # 比较与真实标签的准确率
    cloned_accuracy = accuracy_score(y_test, cloned_model_predictions)
    print(f"    => 克隆模型自身的分类准确率 (Accuracy): {cloned_accuracy:.4f}")

if __name__ == "__main__":
    main()

5. 运行与结果分析

确保target_api.py仍在运行。
在另一个终端中运行攻击脚本：
```
python stealing_script.py
```

预期输出结果：

--- [阶段一：数据收集] ---
[*] 准备向 http://127.0.0.1:5000/predict 发起 2000 次查询...
    已完成查询: 200/2000
    已完成查询: 400/2000
    ...
    已完成查询: 2000/2000
[+] 数据收集完成！共获得 2000 条有效数据，耗时 3.58 秒。

--- [阶段二：克隆模型训练] ---
[+] 克隆模型训练完成！

--- [阶段三：效果验证] ---
[*] 正在获取目标API在测试集上的预测结果作为基准...

[SUCCESS] 模型窃取成功！
    => 克隆模型与目标模型在鸢尾花数据集上的预测一致性 (Fidelity): 0.9600
    => 克隆模型自身的分类准确率 (Accuracy): 0.9600

结果解读：

预测一致性 (Fidelity) 高达96%，这意味着我们窃取的模型在96%的情况下，其行为和原始的目标模型完全一样。
分类准确率 (Accuracy) 也达到了96%，说明我们的克隆模型不仅行为相似，而且分类效果也同样出色。
我们成功地在完全黑盒的情况下，仅通过2000次API调用，就几乎完美地复制了目标的核心模型功能。这就是模型窃取实战的威力。

四、进阶技巧

1. 常见错误与解决方法

错误：查询数据分布不合理，导致模型偏差大。
- 原因：如果只在特征空间的某个小角落里查询，克隆模型将无法学习到全局的决策边界。
- 解决：采用更智能的查询策略。例如，从粗略的随机采样开始，然后聚焦于当前模型难以分类的“决策边界”附近进行更精细的采样（主动学习策略）。
错误：克隆模型结构选择不当。
- 原因：用一个简单的线性模型去窃取一个复杂的深度神经网络，效果会很差。
- 解决：如果目标是API返回类别（如本例），决策树、梯度提升树（XGBoost）通常效果很好。如果API返回的是概率或置信度，使用神经网络作为克隆模型，并将API返回的概率作为软标签（Soft Label）进行训练，效果会好得多。这被称为知识蒸馏 (Knowledge Distillation) 的一种应用。

2. 性能 / 成功率优化

查询预算优化：在有限的API调用次数（预算）内达到最佳窃取效果。可以采用主动学习 (Active Learning) 策略，优先查询那些克隆模型最“不确定”的样本点，这样每次查询提供的信息量最大。
数据增强：对于图像、文本等数据，可以在查询前进行微小扰动（如旋转、裁剪、同义词替换），以更低的成本扩充数据集，探索决策边界。
利用概率信息：如果API返回了每个类别的置信度（概率），一定要利用起来！这比只用一个最终类别（硬标签）提供了多得多的信息，可以显著减少所需的查询次数，并提升克隆模型的精度。

3. 实战经验总结

从简单模型开始：始终先尝试用简单的模型（如决策树）进行窃取。如果效果已经足够好，就没必要上复杂模型。这符合奥卡姆剃刀原理。
理解目标业务：了解目标API的输入特征范围至关重要。像本例中，我们为鸢尾花特征设定了合理的min和max值。对一个文本情感分析API发送乱码，是毫无意义的。
窃取攻击也是迭代过程：先用少量查询（如1000次）快速训练一个基础模型，分析其弱点，然后设计下一轮更有针对性的查询策略。

4. 对抗 / 绕过思路

高级的AI服务可能会部署一些针对模型窃取的防御措施。攻击者需要相应的绕过思路：

对抗速率限制/费用：使用代理IP池、分布式查询、众包平台（如Amazon Mechanical Turk）来分散请求来源，绕过基于IP的速率限制。在时间上拉长查询周期，模拟正常用户行为。
对抗水印/指纹：一些防御方法会给特定查询返回“特制”的错误结果，作为追踪窃取者的水印。攻击者可以通过多个账号交叉验证、对返回结果进行一致性检查来识别和过滤这些水印。
对抗返回结果扰动：防御方可能故意在返回的概率上增加微小噪声。攻击者可以通过多次查询同一数据点取平均值，或者在训练时采用对噪声不敏感的损失函数来缓解此问题。

五、注意事项与防御

理解了攻击，我们才能更好地进行防御。

1. 错误写法 vs 正确写法 (API设计侧)

错误写法 ❌:

# 返回精确、详细的置信度分数
return jsonify({
    'prediction': 'cat',
    'probability': {'cat': 0.98, 'dog': 0.01, 'other': 0.01} 
})

风险：为攻击者提供了“知识蒸馏”所需的完美软标签，极大加速了模型窃取。

正确写法 ✅:

# 仅返回最终类别，或对置信度进行量化/分箱
return jsonify({
    'prediction': 'cat',
    'confidence': 'high' # high/medium/low
})

加固：减少返回信息的精度，增加攻击者窃取模型的难度和成本。

2. 风险提示

任何对外提供预测服务的AI模型，都天然存在被窃取的风险。
模型窃取不仅是技术损失，更是核心知识产权和商业机密的泄露。
被窃取的模型可能被用于发起更具破坏性的对抗性攻击。

3. 开发侧安全代码范式

在开发AI应用时，应内置安全思维：

最小信息原则：如非业务必要，绝不返回详细的概率分布。
结果扰动：在不严重影响用户体验的前提下，对输出的概率值加入微小的随机噪声，或者对结果进行截断（例如，只保留小数点后两位）。
模型集成：使用多个异构模型进行集成（Ensemble），让最终的决策边界变得异常复杂，从而大大增加窃取难度。

4. 运维侧加固方案

速率限制与监控：对来自同一IP或同一用户的API请求频率进行严格限制。监控查询行为，当发现某个用户的查询模式（如大量随机、均匀分布的查询）与正常用户显著不同时，进行告警或临时封禁。
查询指纹与水印：设计一种机制，当检测到可疑查询时，在返回结果中嵌入一个该用户专属的、难以察觉的“水印”（例如，对某个特定输入，返回一个独特的错误分类）。如果后续在野外发现了包含这个水印的克隆模型，就可以溯源到攻击者。
差异化响应：对可信度高的用户（如长期付费用户）返回高质量结果，对匿名或可疑用户返回质量较低或经过扰动的结果。

5. 日志检测线索

安全运维人员应重点关注以下日志特征，它们可能是模型窃取攻击的信号：

高频率的API调用：远超正常用户的使用频率。
查询分布异常：查询的输入数据覆盖了非常广泛且均匀的特征空间，不像正常用户那样集中在某些特定场景。
低重复率：攻击者为了探索模型，会不断生成新数据，因此查询内容的重复率很低。
一致的客户端指纹：来自同一IP段、使用相同User-Agent的大量请求。

总结

核心知识：模型窃取是一种黑盒攻击，通过API查询来复制一个功能相似的克隆模型，其本质是函数近似。
使用场景：主要用于商业窃密、发起对抗性攻击的前期准备，以及企业安全自查。
防御要点：核心在于“减少信息泄露”和“增加攻击成本”。防御手段包括简化API返回、速率限制、异常行为检测和模型加固。
知识体系连接：模型窃取是AI安全领域的一环，它与对抗性攻击、成员推理攻击和数据隐私紧密相连。窃取的模型是发起其他攻击的“跳板”。
进阶方向：深入研究更高效的查询策略（主动学习）、针对不同类型模型（如NLP、GAN）的窃取方法，以及最新的防御技术，如差分隐私在模型输出上的应用。

自检清单

是否说明技术价值？
是否给出学习目标？
是否有 Mermaid 核心机制图？
是否有可运行代码？
是否有防御示例？
是否连接知识体系？
是否避免模糊术语？

脑启社区

脑启社区是一个专注类脑智能领域的开发者社区。欢迎加入社区，共建类脑智能生态。社区为开发者提供了丰富的开源类脑工具软件、类脑算法模型及数据集、类脑知识库、类脑技术培训课程以及类脑应用案例等资源。

更多推荐

快讯｜复旦发布全球首篇WAM系统性综述366篇论文绘制技术版图，飞捷科思自研可微分物理引擎Fysics指标超8B模型，维泛智能类脑芯片BiGPU融合ANN与SNN，Sim2Real实证：空间特征泛化远

脑启社区

EM-Core自动驾驶类脑世界模型——全域客观认知底座（V1.0 正式版）

本文档为 EM-Core 自动驾驶认知系统的核心认知底座规范，是 ECC 认知大脑开展推理、预判、决策的**唯一客观依据**。本模型与 MLNF-Mem 记忆中枢完全物理解耦，作为漏斗外侧独立挂载的外置模块（ad-44）运行，仅通过 `WM_QUERY` 标准消息向 ECC-01 情境解析模块和 ECC-03 因果推理模块提供风险向量与属性查询服务，不参与记忆晋升、遗忘或行为决策。适用于全场景自动