Nature Computational Science | 香港城市大学韦业等:复杂系统深度主动优化
从有限的数据中推断最优解,是材料科学、生物学、控制系统等领域面临的共同难题。人工智能技术为解决这一难题提供了可能,但是现有方法在高维、数据稀缺问题中效果受限。为此,本文通过集成深度神经网络的高维非线性逼近能力和树探索的空间搜索能力,提出了神经网络代理模型引导树探索的主动优化方法。结果表明,该方法在超2000维的数值优化问题中找到全局最优,并在材料、生物、控制等领域中的表现优于现有方法,为解决各种小
复杂系统深度主动优化
Deep active optimization for complex systems
Ye Wei*, Bo Peng, Ruiwen Xie, Yangtao Chen, Yu Qin, Peng Wen, Stefan Bauer, Po-Yen Tung, Dierk Raabe*等
香港城市大学等

引用格式:
Wei Y, Peng B, Xie R, et al. Deep active optimization for complex systems[J]. Nature Computational Science, 2025: 1-12.
摘要:
从有限的数据中推断最优解,是材料科学、生物学、控制系统等领域面临的共同难题。人工智能技术为解决这一难题提供了可能,但是现有方法在高维、数据稀缺问题中效果受限。为此,本文通过集成深度神经网络的高维非线性逼近能力和树探索的空间搜索能力,提出了神经网络代理模型引导树探索的主动优化方法。结果表明,该方法在超2000维的数值优化问题中找到全局最优,并在材料、生物、控制等领域中的表现优于现有方法,为解决各种小样本、高维优化难题提供了通用技术。
一、研究背景及问题
从自动驾驶控制系统,到高性能材料与新药研发,现代社会的进步高度依赖于从工程与科学领域中发现“更优解”。然而,这些问题往往面临搜索空间巨大、强非线性的挑战,高保真实验或仿真成本高昂,且周期漫长。长期以来,优化主要依赖专家经验和重复试错,通常带来大量的时间和资源消耗。
主动学习、贝叶斯优化、强化学习等人工智能技术的兴起为解决这一困境提供了新路径。主动学习能够在实验或仿真过程中形成闭环决策,主动选择最具信息价值的采样点,加速最优解的发现,近年来已经在物理、化学、生物等领域引起广泛关注;贝叶斯优化基于高斯过程构建拟合目标函数的代理模型,通过不确定性的采样方法(如期望改善(EI)、置信上界(UCB)),在有限样本条件下逐步逼近最优解;强化学习能够通过与环境交互发现最优解,深度神经网络与蒙特卡洛树探索方法相结合的强化学习方法在发现最优解任务中取得了显著成功,尤其在大规模数据集可访问并且目标为累积奖励的场景下(如围棋、路径规划等)表现突出。
然而,这些方法在高维复杂系统、数据有限且目标非累积的实际工程问题中仍存在局限:主动学习侧重提升模型预测能力,而非直接寻找最优解;贝叶斯优化依赖特定核函数和分布假设,难以扩展到复杂、高维搜索空间;强化学习通常需要大量数据、明确奖励函数和累积目标,不适合数据稀缺且目标非累积场景。
为此,本文融合主动学习、贝叶斯优化、强化学习的优势思想和技术,针对小样本、高维问题全局优化难题,提出了通用性更强、适用范围更广的主动优化框架。
二、研究方法:神经网络代理模型引导树探索的主动优化方法
本文提出了一种神经网络代理模型引导树探索的主动优化框架,旨在较小的初始数据集(从几十个到几百个)寻找最优解。其核心思想是用深度神经网络提供先验知识,用树搜索进行空间探索,并通过一系列针对性机制避免高维搜索出现的效率崩溃。总体如图1所示,该框架与贝叶斯优化高度一致,但改进了代理模型和最优解搜索方法。主要包括以下5部分:
-
针对复杂系统的输入-输出关系,构建小样本初始数据库;
-
利用数据库训练深度神经网络代理模型,近似替代复杂系统的输出响应;
-
在代理模型引导下,基于提出的树探索策略主动搜索复杂系统空间;
-
评估筛选出的候选解的真实值,并将新获得的数据添加至数据库。
-
重复迭代上述过程。
基于代理模型开展树探索,是提出框架快速发现优秀解的核心。具体的树搜索过程如图2所示,主要包括以下4个机制:
1.机制一:数据驱动的置信上界(DUCB)
通过计算叶节点和根节点的值,比较各节点的价值,用于选择下一步探索方向。计算公式为:
式中,是代理模型预测的当前节点值,令
是真实分布,
是根据该分布动态调整的比例因子,N是当前根节点的访问次数,n是当前叶节点的访问次数。
2.机制二:条件选择机制
为了抑制搜索过程向“低价值区域”退化,比较所有叶节点与根节点的值。若,即叶节点的值大于根节点,则该叶节点提升为新的根节点;否则继续以当前根节点为中心搜索。
3.机制二:局部反向传播
更新从根节点到被选中叶节点之间的访问次数N,n和DUCB,构建局部DUCB梯度,引导搜索逐步跳出局部最优。
4.机制四:自适应探索
根据历史迭代中是否发现高价值节点,动态调整DUCB中的强度,实现在发现潜在优秀解后,主动扩大对价值区域的搜索覆盖率。
三、结果
图3基于数值算例展示了消融实验结果,对比了初始样本量、对代理模型选择以及不同优化方法对优化收敛结果的影响。不同维度下,提出方法(DANTE)具有快速收敛到全局最优的优势。图4在一些实际问题中测试了提出方法的优势。图5展示了更多涉及大搜索空间、多外部约束、噪音标签和高度非线性的实际优化问题。
四、总结
当前,发现最优解的主要瓶颈在于代理模型的表达能力和计算资源,而非算法本身。通过更复杂的代理模型和更大规模计算,DANTE 有望以数据驱动方式处理超过2000维的超高维非线性问题。未来,该方法在机器人自动化实验设计、加速材料发现与合成,以及金融资源优化等领域均具有广阔应用前景,有望成为跨学科高维非线性优化任务的标准工具。
代码与数据:
GitHub: https://github.com/ Bop2000/DANTE/
Zenodo: https://doi.org/10.5281/ zenodo.16225698
公众号原文链接(文末附论文资源):
Nature Computational Science | 香港城市大学韦业等:复杂系统深度主动优化
注:文章由马龙解读、投稿分享,向本公众号授权发布。
更多推荐

所有评论(0)