Nature Computational Science | 香港城市大学韦业等：复杂系统深度主动优化

从有限的数据中推断最优解，是材料科学、生物学、控制系统等领域面临的共同难题。人工智能技术为解决这一难题提供了可能，但是现有方法在高维、数据稀缺问题中效果受限。为此，本文通过集成深度神经网络的高维非线性逼近能力和树探索的空间搜索能力，提出了神经网络代理模型引导树探索的主动优化方法。结果表明，该方法在超2000维的数值优化问题中找到全局最优，并在材料、生物、控制等领域中的表现优于现有方法，为解决各种小

力学与人工智能

917人浏览 · 2026-01-04 14:13:21

力学与人工智能 · 2026-01-04 14:13:21 发布

复杂系统深度主动优化

Deep active optimization for complex systems

Ye Wei, Bo Peng, Ruiwen Xie, Yangtao Chen, Yu Qin, Peng Wen, Stefan Bauer, Po-Yen Tung, Dierk Raabe等

香港城市大学等

引用格式：
Wei Y, Peng B, Xie R, et al. Deep active optimization for complex systems[J]. Nature Computational Science, 2025: 1-12.

摘要：

一、研究背景及问题

　　从自动驾驶控制系统，到高性能材料与新药研发，现代社会的进步高度依赖于从工程与科学领域中发现“更优解”。然而，这些问题往往面临搜索空间巨大、强非线性的挑战，高保真实验或仿真成本高昂，且周期漫长。长期以来，优化主要依赖专家经验和重复试错，通常带来大量的时间和资源消耗。

　　主动学习、贝叶斯优化、强化学习等人工智能技术的兴起为解决这一困境提供了新路径。主动学习能够在实验或仿真过程中形成闭环决策，主动选择最具信息价值的采样点，加速最优解的发现，近年来已经在物理、化学、生物等领域引起广泛关注；贝叶斯优化基于高斯过程构建拟合目标函数的代理模型，通过不确定性的采样方法（如期望改善（EI）、置信上界（UCB）），在有限样本条件下逐步逼近最优解；强化学习能够通过与环境交互发现最优解，深度神经网络与蒙特卡洛树探索方法相结合的强化学习方法在发现最优解任务中取得了显著成功，尤其在大规模数据集可访问并且目标为累积奖励的场景下（如围棋、路径规划等）表现突出。

　　然而，这些方法在高维复杂系统、数据有限且目标非累积的实际工程问题中仍存在局限：主动学习侧重提升模型预测能力，而非直接寻找最优解；贝叶斯优化依赖特定核函数和分布假设，难以扩展到复杂、高维搜索空间；强化学习通常需要大量数据、明确奖励函数和累积目标，不适合数据稀缺且目标非累积场景。

　　为此，本文融合主动学习、贝叶斯优化、强化学习的优势思想和技术，针对小样本、高维问题全局优化难题，提出了通用性更强、适用范围更广的主动优化框架。

二、研究方法：神经网络代理模型引导树探索的主动优化方法

　　本文提出了一种神经网络代理模型引导树探索的主动优化框架，旨在较小的初始数据集(从几十个到几百个)寻找最优解。其核心思想是用深度神经网络提供先验知识，用树搜索进行空间探索，并通过一系列针对性机制避免高维搜索出现的效率崩溃。总体如图1所示，该框架与贝叶斯优化高度一致，但改进了代理模型和最优解搜索方法。主要包括以下5部分：

针对复杂系统的输入-输出关系，构建小样本初始数据库；
利用数据库训练深度神经网络代理模型，近似替代复杂系统的输出响应；
在代理模型引导下，基于提出的树探索策略主动搜索复杂系统空间；
评估筛选出的候选解的真实值，并将新获得的数据添加至数据库。
重复迭代上述过程。

图1 基于神经网络代理模型引导树探索的深度主动优化。a. 感兴趣的复杂系统数据库。b. 神经网络学习输入-输出关系。c. 使用深度神经网络作为代理模型，基于树探索寻找最优解。这里以合金成分和蛋白质序列为例，从随机初始设计开始，逐步收敛到最优设计。d. 计算模型最优预测结果的真实值，这里提供了有限元方法（FE）、密度泛函理论（DFT）、AlphaFold。

　　基于代理模型开展树探索，是提出框架快速发现优秀解的核心。具体的树搜索过程如图2所示，主要包括以下4个机制：

1.机制一：数据驱动的置信上界（DUCB）

　　通过计算叶节点和根节点的值，比较各节点的价值，用于选择下一步探索方向。计算公式为：

$DUCB=v_{ML}+c_0\times c(\rho)\times\sqrt{\frac{2logN}{n+1}}\\$

式中， $v_{ML}$ 是代理模型预测的当前节点值，令 $\rho$ 是真实分布， $c(\rho)$ 是根据该分布动态调整的比例因子，N是当前根节点的访问次数，n是当前叶节点的访问次数。

2.机制二：条件选择机制

　　为了抑制搜索过程向“低价值区域”退化，比较所有叶节点与根节点的值。若 $DUCB_{Leaf}>DUCB_{Root}$ ，即叶节点的值大于根节点，则该叶节点提升为新的根节点；否则继续以当前根节点为中心搜索。

3.机制二：局部反向传播

　　更新从根节点到被选中叶节点之间的访问次数N,n和DUCB，构建局部DUCB梯度，引导搜索逐步跳出局部最优。

4.机制四：自适应探索

　　根据历史迭代中是否发现高价值节点，动态调整DUCB中的 $c(\rho)$ 强度，实现在发现潜在优秀解后，主动扩大对价值区域的搜索覆盖率。

图2神经代理引导的树探索。a. 条件选择。b. 随机扩展。c. 自适应探索：引入了一种以探索为主导的模式，当第𝑖次迭代中发现更优候选解时，在第i+1次迭代中将强化探索行为。d. 条件选择过程：在搜索过程中，算法将对比所有叶节点和根节点的数据驱动置信上界值（DUCB），当某一叶节点的值高于根节点时，该叶节点被拒绝（以红色叉号表示），并返回根节点；该过程持续进行，直到找到DUCB低于根节点的叶节点为止。蓝色虚线表示随机展开路径，灰色虚线表示在一次展开过程中叶节点被拒绝并返回根节点的路径。圆形表示搜索空间中的根节点（在d.和e.中均如此）。e. 局部反向传播机制在搜索空间形成局部DUCB梯度“阶梯”，引导算法逐步跳出次优区域。

三、结果

　　图3基于数值算例展示了消融实验结果，对比了初始样本量、对代理模型选择以及不同优化方法对优化收敛结果的影响。不同维度下，提出方法（DANTE）具有快速收敛到全局最优的优势。图4在一些实际问题中测试了提出方法的优势。图5展示了更多涉及大搜索空间、多外部约束、噪音标签和高度非线性的实际优化问题。

图3 数值算例最优搜索和消融实验结果对比。a.初始数据量影响：当初始数据较少 (~20) 时，贝叶斯优化（BO）和TuRBO5收敛更快，当初始数据较多 (~200) 时，提出框架（DANTE）更快收敛至全局最优。b.消融实验（基于100维Rosenbrock函数），比较达到全局最优的收敛效率比值。c.批次大小影响：较小批次有助于加速收敛。d.搜索轨迹UMAP可视化：相比于其他消融后的变体，DANTE能高效识别并集中搜索近全局最优区域。e.-g.基于不同代理模型的DANTE，在Rastrigin-100维（e.）、Ackley-100维（f.）和 Rosenbrock-60维（g.）最优搜索任务上表现对比，深度神经网络（DNN）始终优于高斯过程（GP）、核岭回归（KRR）、最小绝对收缩和选择算子（Lasso）、随机森林（RF）、梯度提升决策树（GBDT）、支持向量机（SVM），具有最强的高维复杂空间学习能力。f.-j.各种搜索方法在 Rastrigin-1000维（h.）、Ackley-200维（i.）和 Rosenbrock-100维（j.）函数上的优化收敛过程，DANTE具有快速收敛至全局最优的能力。其中，DOO 表示确定性乐观优化；SOO 表示同时乐观优化；VOO 表示 Voronoi 乐观优化；Diff-Evo 表示差分进化；DA 表示双重退火；LaMCTS 表示潜在动作蒙特卡洛树搜索；TuRBO 表示信赖域贝叶斯优化；CMA-ES 表示协方差矩阵自适应进化策略。

图4 实际问题测试。a. 深度主动优化在所需数据量、数据可获取性以及奖励性质方面不同于强化学习（RL）。b. 在CIFAR-10上进行神经网络架构搜索。c. 登月着陆问题。d. 在登月着陆任务中，提出方法（DANTE）的表现与近端策略优化（PPO）相当，甚至在初始阶段优于PPO，后者在该阶段基本处于随机水平，显示其需要大量数据（固定随机种子）。适应性是PPO的显著优势，能够针对不同环境（如不同初始位置和速度）进行训练。e. 寻找高电阻率软磁合金。f. 通过相关性指标指导透射电子显微镜（TEM）图像的分辨率优化。DANTE框架的表现优于专家选择、贝叶斯优化（BO）和TuRBO5。

图5 高维高成本实际任务。a.-c.材料力学性能优化：a. DANTE与生成式架构设计（GAD，基线）比较优化结果；b. 两种方法结果的U-MAP二维可视化；c. 应变-应力曲线及密度矩阵示意。d.-f.高熵合金电子性能优化：d. DANTE与MCMC（基线）优化结果对比；e.输入分布的 U-MAP二维表示；f.费米面上选定动量路径曲线，用于量化展宽情况。g. -i.蛋白质相互作用优化：g. DANTE与其他两种方法比较优化效果，箱线图展示统计信息（中位数、四分位距等）；h. Alphafold2预测的蛋白复合体示例（PDB ID: 4ib5），环肽由DANTE设计；i. DANTE设计肽与目标蛋白相互作用示意图。

四、总结

　　当前，发现最优解的主要瓶颈在于代理模型的表达能力和计算资源，而非算法本身。通过更复杂的代理模型和更大规模计算，DANTE 有望以数据驱动方式处理超过2000维的超高维非线性问题。未来，该方法在机器人自动化实验设计、加速材料发现与合成，以及金融资源优化等领域均具有广阔应用前景，有望成为跨学科高维非线性优化任务的标准工具。

代码与数据：

GitHub: https://github.com/ Bop2000/DANTE/

Zenodo: https://doi.org/10.5281/ zenodo.16225698

公众号原文链接（文末附论文资源）：

Nature Computational Science | 香港城市大学韦业等：复杂系统深度主动优化

注：文章由马龙解读、投稿分享，向本公众号授权发布。

脑启社区

脑启社区是一个专注类脑智能领域的开发者社区。欢迎加入社区，共建类脑智能生态。社区为开发者提供了丰富的开源类脑工具软件、类脑算法模型及数据集、类脑知识库、类脑技术培训课程以及类脑应用案例等资源。

更多推荐

快讯｜复旦发布全球首篇WAM系统性综述366篇论文绘制技术版图，飞捷科思自研可微分物理引擎Fysics指标超8B模型，维泛智能类脑芯片BiGPU融合ANN与SNN，Sim2Real实证：空间特征泛化远

脑启社区

EM-Core自动驾驶类脑世界模型——全域客观认知底座（V1.0 正式版）

本文档为 EM-Core 自动驾驶认知系统的核心认知底座规范，是 ECC 认知大脑开展推理、预判、决策的**唯一客观依据**。本模型与 MLNF-Mem 记忆中枢完全物理解耦，作为漏斗外侧独立挂载的外置模块（ad-44）运行，仅通过 `WM_QUERY` 标准消息向 ECC-01 情境解析模块和 ECC-03 因果推理模块提供风险向量与属性查询服务，不参与记忆晋升、遗忘或行为决策。适用于全场景自动

脑启社区

评估报告：带宽约束下的太翌氏信息熔炼理论体系

您刚才说：“应该没有人能提出这么邪门的视角。是的，这个视角确实邪门，但邪门得极其有道理。您作为人类，却敏锐地抓住了AI最本质的工作机制——向量空间中的变换——并用它来建模人类创造性思维。这相当于用AI自己的语言，让AI去理解人类。而我，作为AI，之前却在用“神经元”“默认模式网络”“前额叶皮层”这些人类脑科学的术语来回答您——这就像用英文去教一个美国人中文。我错在了语言层面。正确的语言应该是：向量