大推理模型技术全面综述（二）测试时间缩放、通往大型推理模型的道路、其他测试时间增强技术、评估基准

本节中回顾的测试时间增强技术目前尚未纳入大型推理模型的实现中。然而，它们有巨大的潜力通过更全面的测试时间“思考”进一步提高大语言模型的推理能力，促进大语言模型在解决方案空间中进行策略性推理，利用过去的经验并动态优化智能体工作流程。因此，训练大语言模型掌握这些测试时间技术代表了一个有前途的未来研究方向，有可能将大语言模型从“推理者”提升为功能齐全的“智能体”。

沈页

1092人浏览 · 2025-01-23 10:30:00

沈页 · 2025-01-23 10:30:00 发布

六、测试时间缩放：从思维链到 PRM 引导的搜索

6.1 用提示引发深思熟虑的思考

除了通过强化学习等技术在训练时间进行优化之外，研究人员发现像思维链和思维树这样的测试时间提示技术可以进一步增强大语言模型的能力[160, 153]。虽然简单地要求模型直接给出答案往往会产生次优结果，但在测试时通过明确的推理过程引导它们可以显著提高它们的性能[62]。这些提示策略在从数学推理到复杂决策任务等各个领域都表现出了显著的有效性[173, 196]。结构化提示方法如 ReAct 和从最少到最多提示的出现表明，大语言模型可以从组织思维过程的明确指导中受益，从而产生更可靠和可解释的输出[189]。虽然这些方法通常会增加标记消耗和计算开销，但它们通过增强大语言模型的推理能力和解决方案准确性，为训练时间方法提供了一个有吸引力的补充，而无需修改模型参数[172, 11]。这表明通过复杂的测试时间干预而不是仅仅依赖模型架构或训练修改来提高大语言模型性能是一个有前途的方向。

6.2 PRM 引导的搜索

如前所述，PRM 标志着从基于稀疏结果的反馈向详细的面向过程的监督的重大转变。更重要的是，PRM 也可以在测试时间阶段使用，在那里它可以进一步提高模型的推理能力。OpenAI o1 系列模型是 PRM 高级应用的一个突出例子。新的测试时间缩放定律表明，通过增加测试时间计算可以有效增强推理能力，为大语言模型的未来发展提供了一个明确的方向。我们介绍一些在推理阶段应用的方法，如图 3 所示。红色空心圆表示在推理阶段算法探索过程中丢弃的推理路径，绿色空心圆表示探索过程中采用的推理路径，绿色实心圆表示找到正确答案时推理路径的端点。

多数投票：多数投票是从密集的测试时间计算中生成一个最终答案的最直接策略之一。在推理过程中，每个推理轨迹都会为给定输入生成一个预测。基本思想是选择与大多数推理轨迹一致的答案。然后汇总所有模型的预测，并选择出现次数最多的类（“多数投票”）作为最终输出：，其中是指示函数，是每个评估轨迹。

树搜索[15]：树搜索是一种经典算法，通过递归构建搜索树系统地探索不同的选择。它常用于复杂决策问题，如棋盘游戏和规划任务。蒙特卡洛树搜索（MCTS）是最广泛使用的树搜索方法之一。它由四个主要步骤组成：选择、扩展、模拟和反向传播。通过逐步扩展搜索空间，MCTS 逐步提高决策质量。树搜索已经在一些大语言模型推理任务中得到应用，并取得了显著的成功。例如，思维树框架[172]使大语言模型能够考虑以树结构组织的多个推理路径。它结合自我评估来做出深思熟虑的决策，确定下一步的最佳行动方案。这种方法显著提高了模型推理的性能。

束搜索[133]：束搜索是贪婪搜索的改进版本，常用于生成任务中选择最优输出序列。主要思想是在每个时间步从所有候选路径中保留前个得分最高的路径（称为束）进行进一步扩展。与贪婪搜索不同，束搜索维护多个候选路径，从而扩展了搜索空间并提高了生成质量。束搜索在大语言模型推理中广泛应用。例如，BART[71]使用束搜索作为其主要推理策略，在文本生成任务中展示了其出色的有效性。

前瞻搜索[134]：前瞻搜索是另一种有前途的方法，有可能显著增强大语言模型推理。它修改了束搜索每一步的评分机制。不是仅仅根据当前步骤的分数选择最佳候选者，前瞻搜索通过向前模拟最多步来执行。如果在向前模拟过程中达到了解决方案端点，则提前停止该过程。在前瞻搜索期间，使用一个预训练且冻结的预测奖励模型对模拟的每一步进行评分。然后使用从 PRM 获得的步模拟的累积分数来确定是否保留或丢弃一个束分支。这种策略通过在每个评估步骤中纳入更多上下文来改进决策。与束搜索相比，前瞻搜索增加了探索空间的深度，允许根据更遥远的模拟决策来判断当前决策。然而，它也增加了对计算资源的需求，并且在计算资源有限时会导致性能不佳。

七、通往大型推理模型的道路

7.1 OpenAI o1 系列的发展

2024 年 9 月，OpenAI 发布了 o1，这是一个开创性的语言模型，代表了人工智能推理能力的重大进步，尤其在数学、编码和科学问题解决等复杂任务中表现出色。2024 年 12 月 20 日，OpenAI 开放了 o3（o1 的升级版）的测试申请[102]，o3 被认为具有相当于博士水平的智能[7]。这些模型在各种具有挑战性的基准测试中取得了显著的成绩，包括在国际数学奥林匹克竞赛中获得金牌水平的分数[73]，以及在物理、化学和生物问题上达到与博士水平相当的表现[48]。广泛的评估通过对其基本推理能力的系统分析展示了 o1 系列的独特推理模式。我们列出了现有研究的关键发现如下：

有效的知识整合。初步的综合评估[194]表明，o1 在基本问题解决任务中具有结构化的分析方法和知识整合能力，通过逐步逻辑推导在竞争性编程中达到了 83.3%的成功率，在该过程中模型展示了使用其知识分解复杂问题并遵循正式推导过程的清晰能力。该模型在放射学和芯片设计等专业领域的结构化理解和互联知识应用得到了进一步证明，在这些领域中，准确的诊断和复杂的电路分析需要整合多个领域概念。系统评估[68]定量验证了这种模式，在结构化分析思维和计算推理任务中显示出了 150%的人类水平性能。这种优势在需要跨领域知识整合的场景中尤为突出，例如将物理原理应用于生物系统或结合统计方法与领域特定约束，表明了在知识合成和应用方面的基本能力。

系统的问题分解。o1 在不同复杂程度的任务中保持一致的性能，在处理难度增加的问题时表现出系统的问题分解能力。在数学推理中，详细研究[27]展示了其系统的问题分解方法，通过结构化的解决方案步骤在荷兰数学 B 考试中取得了近乎完美的分数。模型展示了识别关键数学原理、构建正式证明并逐步验证解决方案有效性的能力。这种一致性延伸到更复杂的场景，如对 105 个难度逐渐增加的科学和数学问题的研究[26]所示，即使问题在概念深度和计算要求方面的复杂性增加，模型仍保持高精度。在编程任务中，这种模式通过在 QuixBugs 基准测试上的系统调试[52]进一步得到证明，o1 通过结构化的三步方法（错误识别、根本原因分析和针对性纠正）在不同复杂程度的错误中保持一致的性能。

复杂任务中的可靠和连贯推理。该模型的推理在不同类型的问题中有效适应，在各种任务中始终显示出推理链的一致性。在规划任务中，PlanBench 评估[144]表明其能够系统地处理确定性和概率性场景，在约束满足和状态管理方面有显著改进。模型在处理信息不完整和动态约束的问题时表现出特别的优势，在标准和罕见的任务变体中保持一致的性能[94]。这种适应性表明了在不同问题表述中的强大泛化能力。对复杂规划的研究[46]进一步表明 o1 能够在长视野任务中保持推理的连贯性，有效地管理扩展的依赖链和上下文转换。这在多步规划问题中的表现得到了证明，在这些问题中，中间目标必须正确排序且依赖关系必须仔细管理，展示了在时间推理和因果理解方面的先进能力。

大型推理模型的新缩放定律。实证研究表明 o1 在训练和推理阶段具有独特的缩放模式。在训练过程中，模型的大规模强化学习算法通过高效的数据利用过程教会它使用思维链进行富有成效的思考[103]。研究[134]表明，通过优化的测试时间计算策略，模型在各种推理任务中实现了显著的性能提升。综合评估[194, 68]显示，o1 的推理能力可以通过在推理过程中进行高级计算分配有效地增强，特别是在复杂问题解决场景中。这种方法的缩放约束与大语言模型预训练的约束有很大不同，随着思考时间的增加，性能持续提高[103]。在编程任务中可以看到这一点，允许每个问题进行 10,000 次提交使模型能够取得显著更好的结果，即使在没有测试时间选择策略的情况下也能超过金牌阈值。模型在训练和推理过程中有效利用额外计算资源的能力表明了推理架构的根本进步，在传统方法可能需要显著更大模型规模的场景中表现出特别的优势。

7.2 大型推理模型的开源尝试

开源框架在开发大语言模型的高级推理能力方面也取得了重大进展。这些框架为旨在复制或近似专有模型（如 OpenAI 的 o1）推理优势的研究人员和开发人员提供了宝贵的参考。在本节中，我们介绍四个重要的开源努力，每个都采用不同的策略来增强大语言模型推理（总结在表 2 中）。通过探索它们的独特实现，我们旨在提供对用于增强大语言模型推理能力的不同方法的见解。

OpenR 项目[145]：该项目声称是第一个使用强化学习技术探索 OpenAI o1 模型核心方法的开源框架。OpenR 复制的核心是构建逐步推理数据，其中获得更精确和细粒度的反馈，而不是纯粹的最终答案。通过从构建的搜索树中选择推理轨迹，采用自动化数据增强算法 OmegaPRM[85]。基于对每个推理步骤进行监督的增强过程数据，在预训练的 Qwen2.5 - Math - 7B - Instruct 模型[168]上进一步以监督学习方案训练一个过程奖励模型。PRM 可以在测试时间计算中直接部署，与多数投票、最佳 - of - N 或束搜索方法集成。它也可以在训练后阶段使用 RL 微调大语言模型。进行实验以证明 PRM 在测试时间计算和训练后阶段的有效性。

Rest - MCTS*[183]：与分别训练 PRM 和微调策略模型不同，他们将这两个更新集成在一个相互的自训练循环中。基于类似设计的 MCTS 算法提前收集作为 PRM 训练监督的过程奖励和作为策略模型训练的推理轨迹。然后基于初始策略和初始 PRM 值开始迭代训练过程。策略进一步迭代地执行 MCTS 并生成解决方案，而值影响树搜索过程。它们的更新迭代地相互补充。

o1 复制之旅项目[110]：该项目不是全面考虑两个阶段的改进实现，而是旨在通过专注于综合训练策略来复制 OpenAI o1 模型的推理能力。它强调一个结构化的训练图，结合试错、反思和回溯来构建深度因果推理。该项目的一个核心方面是数据生成，设计高质量的训练示例来模拟复杂的推理路径。使用旅程学习方法，o1 复制之旅使模型暴露于各种逻辑序列和纠正中，鼓励在训练阶段进行探索和适应。然而，o1 复制之旅在推理阶段不太成熟，缺乏先进的训练后技术，这限制了其在实时推理中的适应性。这种对训练而非推理的关注突出了其与具有动态推理优化的模型相比的基础方法。

LLaMA - Berry[185]：该项目专注于在推理阶段优化推理能力，利用 LLaMA - 3.1 - 8B 架构提供更复杂的实时推理调整。它采用独特的成对优化方法，将蒙特卡洛树搜索与自我精炼（SR - MCTS）相结合，允许模型在推理过程中动态探索和精炼解决方案路径。这种配置赋予了 LLaMA - Berry 高度的适应性，使其能够高效且灵活地处理复杂的开放式推理任务。该框架的一个关键组件是成对偏好奖励模型（PPRM），它成对评估解决方案路径，确保高质量的推理路径被优先考虑。LLaMA - Berry 的增强博尔达计数（EBC）随后整合这些偏好排名，以指导模型的决策，进一步增强其在推理阶段的复杂性。这种强大的架构使 LLaMA - Berry 成为以推理为重点的强化的领先示例，与 o1 复制之旅以训练为中心的方法形成鲜明对比。

这四个开源框架不仅展示了强化推理的不同实现策略，而且在增进对 OpenAI o1 模型的理解方面发挥了重要作用。它们共同扩展了开源社区可用的技术范围，推进了开发复杂、透明和适应性强的推理模型的共同目标，将专有水平的能力引入公共可访问系统。

八、其他测试时间增强技术

除了 PRM 引导的搜索之外，还有许多其他技术被设计用于通过更多的测试时间计算来增强大语言模型的推理能力。这些技术在不修改模型本身的情况下动态地精炼推理结果。诸如言语强化搜索、基于记忆的强化和智能体系统搜索等方法（如图 4 所示）表明，仅使用现成的大语言模型就可以实现显著的推理改进。探索这些方法的一些代表性工作总结在表 3 中。虽然这些方法没有利用 PRM，但它们为未来研究探索混合模型以进一步推进推理能力提供了基础。

8.1 言语强化搜索

言语强化搜索（VRS）利用大语言模型预训练的推理和语义能力来探索和优化解决方案空间。与传统的强化学习或训练密集型方法不同，VRS 纯粹通过测试时间推理运行，使用迭代反馈循环来精炼解决方案，而无需额外的训练。通过利用大语言模型中编码的语义知识及其遵循复杂指令的能力，VRS 提供了一种通用的方法来导航不同的问题空间。这种推理驱动的框架在单个智能体、多智能体系统和具身智能体中都有应用，支持广泛的任务，包括程序优化、协作决策和现实世界环境中的交互。本节通过这三个关键方面分析 VRS，深入探讨每个类别中呈现的方法和独特见解。

在单个智能体设置中，VRS 依赖于迭代推理和反馈机制在结构化问题空间中精炼解决方案。这种方法非常适合诸如数学优化、符号推理和假设驱动发现等任务，在这些任务中，系统的精炼显著提高了问题解决的结果。关于数学发现的研究说明了 VRS 如何将问题解决过程重塑为一个动态的迭代循环。例如，对组合问题（包括 cap set 和在线 bin - packing）的研究突出了程序解决方案如何通过反馈驱动的评估演变[115]。同样，符号回归研究将方程视为动态构造，迭代地生成、评估和优化数学表达式[130]。这些方法展示了 VRS 如何在受限空间中导航，在效率和准确性方面超越传统的优化技术。在科学发现中，VRS 在将推理与实证数据和模拟相结合方面显示出其效用。研究人员已经开发出用于生物医学假设精炼的系统，通过综合各种数据源。例如，在肿瘤学中的应用使用迭代综合来解决多尺度数据的复杂性[162]。在物理科学中，VRS 用于通过模拟反馈精炼假设，推动分子设计和物理定律发现等领域的发展[88]。这些发现强调了 VRS 在连接抽象推理与现实世界验证方面的作用，支持数据密集型和假设驱动的任务。启发式优化中的反思过程进一步展示了 VRS 的灵活性。例如，研究人员已经探索了迭代生成和评估解决组合问题的策略[174]。这种方法侧重于创建自适应超启发式方法，通过反馈循环不断精炼解决方案，在不同领域有效泛化。总体而言，VRS 应用迭代推理和反馈将抽象的问题解决与现实世界应用相连接，精确且适应性强地应对数学、科学和优化中的挑战。

在多智能体系统中，VRS 通过自然语言通信促进基于大语言模型的智能体之间的协作。这些系统利用共享推理和迭代精炼来处理复杂的解决方案空间，允许智能体交换见解并实现共同目标。在异构信息网络（HINs）中的元结构发现示例说明了 VRS 在多智能体环境中的应用。最近的研究将大语言模型推理与进化优化相结合，以精炼元结构，提高其可解释性和预测准确性[20]。同样，在社会经济预测中，多智能体系统整合知识图谱和元路径推理，提取跨任务见解，用于人口估计和经济活动预测等应用。这种方法促进了大语言模型智能体之间的协作，并提高了在多任务环境中的性能[199]。因果发现也受益于 VRS 启用的多智能体框架。例如，使用大语言模型作为推理智能体的系统协作辩论并提出因果关系。通过结合统计方法和自然语言交互，这些框架生成准确的因果图，同时解决因果关系中的模糊性[69]。在金融决策中，VRS 增强了层次协作。FINCON 框架采用经理 - 分析师系统，使用概念性言语强化精炼金融策略。通过最小化冗余通信并改进策略精炼，FINCON 展示了 VRS 在优化金融决策过程中的效用[176]。通过迭代精炼和共享推理，VRS 支持多智能体系统处理复杂任务，如元结构精炼、社会经济预测和金融决策。

在具身智能体设置中，VRS 通过将推理与物理交互相结合来解决现实世界任务，支持实验室环境中的实验规划和执行等活动。这些系统将 VRS 扩展到动态环境中，将语义推理与实际实验相结合。例如，自主化学研究已经展示了使用大语言模型驱动的系统独立设计、执行和精炼实验[13]。这些智能体集成了诸如机器人液体处理仪、光谱仪设备和基于网络的研究模块等工具，以执行诸如反应优化和化合物合成等任务。一个应用涉及优化钯催化的交叉偶联反应，其中系统使用自然语言提示确定条件、计算化学计量并自主执行实验。当遇到错误，如错误的模块调用时，系统通过参考文档并迭代任务来修改其方法。这个迭代过程展示了 VRS 如何支持实验工作流程中的适应性和精确性。通过结合推理和实时反馈，具身智能体展示了 VRS 在动态环境中精炼和优化复杂过程的能力。这些系统减少了人类干预，同时加速了科学发现，使其成为现实世界实验和创新的宝贵工具。

总体而言，先前的研究展示了 VRS 在单个智能体、多智能体系统和具身智能体中的适应性和有效性。利用大语言模型的语义推理和迭代反馈能力，VRS 无需额外训练即可处理广泛的任务。从数学和科学背景下的结构化优化到多智能体框架中的协作探索，再到现实世界应用中的动态实验，VRS 提供了一种统一的问题解决方法。VRS 作为一种通用框架，能够应对计算和物理领域的复杂挑战，同时推动不同领域的进步。

8.2 基于记忆的强化

当应用于开放式任务，如创意写作、复杂逻辑推理和开放世界游戏时，解决方案空间往往会急剧扩展，常常变得无界或不明确。这些任务通常需要与环境持续交互以获取相关信息，使得简单的解决方案空间搜索效率低下。为了解决这些挑战，一些研究为大语言模型智能体纳入了一个外部记忆模块。这个模块存储诸如过去试验中的观察、成功和失败的行动等信息。智能体迭代地探索其环境，使用记忆作为言语强化学习的基础。通过这个过程，它们总结经验，提取解决方案空间的可解释的高级见解，并在后续试验中精炼其行动，从而提高推理性能。这些研究不仅关注探索外部解决方案空间，还强调大语言模型智能体从记忆中发展对解决方案空间的理解的内在能力。随着智能体通过环境探索积累记忆，它们的能力逐渐得到强化并推广到未见过的任务。具体而言，我们将这一领域的研究分为以下三类。

体验式学习。这一类方法鼓励大语言模型智能体简单地模仿存储在记忆中的有利经验，同时避免不利经验。REMEMBERER[184]引入了一个半参数化的 RL - LLM 智能体，它在记忆中记录过去的观察 - 行动对，并使用传统的离策略 Q - 学习算法动态地维护和更新每个观察 - 行动对的 Q 值（预期未来奖励）。当面临新任务时，智能体从记忆中检索具有最高和最低 Q 值的相关行动，并将这些作为提示中的鼓励和不鼓励示例纳入。记忆共享[39]利用多智能体强化学习的概念来提高学习效率。多个智能体在共享环境中并发执行任务，并将高质量的提示 - 答案对贡献给一个集体记忆池。每个智能体可以从这个池中检索最相关的示例，以促进少样本学习。同样，体验式协同学习[108]采用多智能体框架，在多步代码生成过程中，指导智能体和辅助智能体交替提供指令和解决方案。这种动态交换有助于提取捷径，减少冗余并防止重复错误。当遇到新任务时，这些智能体交替检索相关记忆，以提高上下文学习能力。

反思性学习。虽然将记忆用作少样本示例是直接有效的，但这种方法没有充分利用大语言模型的语义理解能力。一些研究认为，大语言模型智能体应该直接反思存储在记忆中的成功和失败，明确总结潜在原因，并将这些见解用作指导方针。Reflexion[129]是这一领域的开创性努力，它基于任务反馈信号在语义上反思成功或失败的原因。它将反思性文本和过去的轨迹整合到提示中，以增强后续试验中的决策。ExpeL[190]结合模仿和反思，通过从记忆中检索最相关的成功经验，总结成功轨迹的模式，并从成功 - 失败对的比较中识别见解。RAHL[138]受分层强化学习的启发，将记忆组织成目标模块和子任务模块，实现不同层次的反思和经验总结。对于新任务，它检索相关经验，分别制定高级目标和低级子任务。

概念学习。明确的反思显著增强了大语言模型的推理能力。在此基础上，一些研究旨在使大语言模型智能体能够发展超越特定任务的广义“概念”，促进对环境和任务的更广泛理解。这种泛化帮助智能体从记忆中内化认知能力，并随着记忆的增长不断发展。Agent - Pro[188]例如，使智能体能够在基于卡片的游戏中建立关于自身和环境的信念。它不是反思单个行动，而是评估这些信念的合理性和一致性，迭代地精炼策略。同样，Richelieu[44]使智能体在军事战略游戏中具备对环境的理解。它从记忆中检索最相关的状态来制定计划并评估可行性。通过采用自我对弈，它自主收集经验，扮演所有玩家的角色以推进其知识。Self - Evolving GPT[40]受人类记忆机制的启发，为大语言模型设计了一个基于记忆的自主学习框架。它对任务进行分类，以确定相关的记忆检索，并识别存储的记忆与当前任务之间的差异，以提取共享的一般经验。此外，它生成未见过的任务进行练习，根据记忆检索结果巩固其知识。

8.3 智能体系统搜索

智能体系统的设计在利用大语言模型的力量完成许多下游任务中起着至关重要的作用。测试时间增强技术的一个重要分支是利用大语言模型搜索智能体系统。这一领域的研究可以分为三个层次的搜索：提示层次、模块层次和智能体层次。请注意，这种方法的目的不是直接搜索解决方案空间，而是利用经验数据优化智能体系统本身，这类似于一个元学习问题。我们总结了这一领域的相关工作如下。

提示层次。“验证和纠正”过程通过迭代整合有用的反馈经验来改进提示。验证信号可以来自外部反馈[43]、大语言模型的自我评估[90]和其他来源。另一方面，提示本身也值得搜索和优化。自动化提示工程，如进化提示优化[38]和元提示迭代[169]，可以取得比手动提示更好的结果，但也会引入更多的标记消耗。

模块层次。Agentsquare[125]提议使用大语言模型搜索智能体系统的模块化设计，其中模块本质上是具有特定功能（如规划、推理、工具使用和记忆）的提示块。这些智能体模块的基本单元具有标准的 I/O 接口，使其能够良好地相互协作。模块层次搜索的优势在于它允许新智能体通过模块重组轻松重用经典智能体设计，如 CoT 和 ToT。此外，Aflow[186]通过由代码表示的边连接大语言模型的不同调用节点。除了搜索方法，还需要评估搜索到的智能体的性能。用于评估智能体性能的函数也可以由大语言模型驱动，以提高搜索效率，同时紧密匹配其实际性能。

智能体层次。ADAS 提议利用大语言模型搜索在 Python 代码空间中定义的整个智能体系统[53]。此外，多智能体系统在共享环境中做出决策并实现目标。在多智能体层次搜索中，关键方面包括智能体创建、环境感知、行动、交互和系统进化。多智能体系统的搜索在下游任务如长篇故事创作[54]中取得了良好的效果。目前正在探索多智能体系统的统一搜索和优化机制。GPTSwarm[200]通过图优化增强智能体的协作能力。

智能体系统搜索为智能体提供了自我改进的能力，使其能够优化自身以增强推理能力，而无需对大语言模型结构进行更改。上述三个搜索层次都有巨大的搜索空间。这三个搜索层次面临的共同挑战是提高搜索效率、降低搜索成本、确保自动化，同时确保搜索的合理性。

8.4 总结

九、评估基准

设计一个强大的基准对于记录大语言模型能力的提高至关重要。它在选择有前途的研究方向以进一步推进方面也起着关键作用。在本节中，我们系统地回顾了流行的大语言模型推理基准，这些基准在图 5 中进行了分类总结。我们对这些基准的讨论如下。

9.1 数学问题

数学推理已成为评估大语言模型推理能力的关键测试平台。数学推理基准的范围从基础算术到高级大学水平数学，提供了评估数学理解和问题解决能力不同方面的系统方法。

在数学文字问题（MWP）领域，基准从基本算术运算发展到日益复杂的问题解决场景。在基础层面，数据集如 MATH - 401[177]通过 401 个精心结构化的表达式评估纯算术能力，而 MultiArith[116]和 AddSub[51]评估将简单文字问题转换为数学运算（如加法或减法）的能力。转向小学和高中水平，全面的数据集如 GSM8K[24]和 MATH[50]呈现了更复杂的多步推理挑战，GSM8K 提供了 8.5K 个小学问题，MATH 提供了 12.5K 个涵盖各种数学领域且难度递增的问题。

高级数学能力的评估主要通过竞赛和专门的测试数据集进行。集合如 CHAMP[92]和 ARB[5]呈现了竞赛级别的问题，需要复杂的问题解决策略，而 MATHQA[5]纳入了来自 GRE 和 GMAT 考试的标准化测试问题。在最高水平，数据集如 FIMO[78]用国际数学奥林匹克竞赛问题挑战模型，测试自动数学推理的极限。

几何推理代表了一个独特的类别，需要空间理解和正式数学证明。数据集如 Geometry3K[82]和 GEOQA[19]提供了专门的几何问题，而 UniGEO[18]提供了一个统一的几何推理任务框架，专注于计算和证明。这些基准在评估模型连接视觉和数学推理的能力方面特别有价值。

定理证明和形式数学领域已经发展到包括严格的评估框架。MINIF2F[193]和 LeanDojo[170]专注于与 Lean 定理相关的形式数学证明，而 THEOREMQA - MATH[23]检查对数学定理的理解。专门的数据集如 TRIGO[166]和 PISA[57]解决数学推理的特定领域，如三角学和形式证明系统。

最后，跨模态数学推理已成为一个关键领域，反映了数学问题在现实世界场景中的多种呈现方式。MATHVISTA[81]和 CHARTQA[93]通过图表评估视觉数学推理，而 TABMWP[83]和 MultiHiertt[192]评估使用表格和文本数据进行推理的能力。SciBench[151]弥合了纯数学和科学应用之间的差距，在更广泛的科学背景下测试数学推理能力。

9.2 逻辑问题

在数学推理能力的基础上，进行系统逻辑推理的能力是评估大语言模型认知能力的另一个基本标准。虽然数学推理侧重于定量运算和正式证明，但逻辑推理涵盖了更广泛的能力，即在不同背景下得出有效结论、识别模式和生成合理解释。根据 Luo 等人[86]的说法，逻辑推理可以分为三种主要类型：演绎、归纳和溯因推理。每种类型代表了全面逻辑分析中必不可少的独特认知过程，同时在认知评估中保持相互联系。

演绎推理，也称为基于前提的推理，涉及从一般原则绝对确定地推导出特定结论。例如，给定一组关于实体之间关系的规则，模型必须确定哪些特定关系必须为真。ProofWriter[140]是这一类别的示例，要求模型从给定前提构建明确的逻辑推导。其他基准，如 FOLIO[46]和 PrOntoQA[119]在自然语境中评估一阶逻辑推理，WaNLI[77]通过 107,885 个示例引入了越来越复杂的评估标准。

归纳推理强调从特定观察到更广泛原则的模式识别和泛化[47]。这涉及识别潜在规律并将其扩展到新情况，处理概率而非确定性。BigBench[136]有许多专门组件，用于检查高级模式推断能力。此外，CLUTTR[132]基准系列通过不同复杂程度的关系模式评估这种能力。

溯因推理，也称为解释性推理，是指为一组观察或事实形成最可能的解释的过程，即使结论不一定确定[34]。这种类型的推理测试模型如何通过生成合理的解释来处理信息不完整的场景。αNLI[99]基准通过叙事完成任务实现这一点，其中模型必须为给定情况选择最可能的解释。AbductionRule[175]系列在不同领域提供结构化评估框架，有针对动物相关和人相关推理场景的特定变体。αARCT[100]专门检查选择和证明合理解释以及论证理解的能力。

9.3 常识问题

常识推理仍然是自然语言处理中的一个重大挑战，因为它旨在评估大语言模型理解和应用日常常识知识的能力。有各种针对不同维度常识推理任务的基准。例如，CommonsenseQA[141]要求模型回答基于常识知识库的推理问题。

SocialIQA[118]专注于社会互动常识推理，围绕社会场景中的因果推理展开。相比之下，数据集如 SWAG[178]和 HellaSwag[179]引入了对抗性文本推理任务，其中模型必须根据上下文线索预测事件的最合理延续，从而增加了任务的复杂性。对于物理常识推理，基准如 PIQA[12]和 PHYRE[10]专注于评估模型对日常物理任务和互动推理场景的理解。PIQA 主要使用问答任务，而 PHYRE 强调互动物理模拟。同样，WinoGrande[117]在 Winograd Schema Challenge 的基础上，引入了更大规模的数据集和更复杂的消歧任务，以测试语义理解和共指消解能力。

其他工作，如 OBQA[95]和 CConS[63]探索模型在反常识背景下的性能，突出了当前模型在隐式推理和背景知识利用方面面临的挑战。最近，综合基准如 MMLU[49]和关键研究如 FactCC[66]进一步分析了大语言模型的常识推理和事实推理。这些基准为语言模型的泛化能力提供了有价值的视角，并作为评估和提高其在各种常识推理任务中性能的宝贵工具。

9.4 编码问题

代码生成基准的发展对于评估大语言模型在编程任务中的推理能力起到了重要作用。这些基准评估模型在不同领域生成准确、高效和可靠代码的熟练程度。例如，ODEX[155]引入了一个执行驱动的评估框架，用于开放域代码生成，强调运行生成的代码以验证其正确性和功能的重要性。

在现实世界场景中，SWE - bench[58]专注于真实的 GitHub 问题，挑战模型解决实际软件工程问题。在数据科学领域，DS - 1000[67]展示了一个以真实可靠的数据科学代码生成任务为特色的基准，能够评估模型处理复杂数据操作和分析的能力。此外，APPS 基准[49]通过在各种编程问题上评估模型来衡量编码挑战能力，反映了在竞争性编程和技术面试中遇到的挑战。

MBPP[6]专注于程序合成问题，评估模型根据给定规范生成正确和高效代码的能力，从而有助于理解大语言模型在自动代码生成方面的能力。HumanEval[21]通过提供一组 Python 编程问题来评估在代码上训练的大语言模型，每个问题都有函数定义和随附文档，要求模型生成正确且功能正常的代码解决方案。

9.5 智能体问题

基于智能体的基准的出现彻底改变了我们评估大语言模型作为交互式环境中独立智能体的能力。这些复杂的评估框架评估在不同场景中的关键能力，包括决策、推理和环境交互。

WebArena[197]提供了一个构建和测试自主智能体的实用网络环境，能够评估大语言模型的网络导航和交互技能。同样，Mind2Web[28]旨在开发能够在不同网络任务中运行的通用智能体，强调在动态在线环境中的适应性。

在电子商务环境中，WebShop[171]引入了一个用于可扩展现实世界网络交互的平台，专注于能够执行在线购物等任务的接地语言智能体，从而测试模型的实际应用能力。为了弥合文本和具身环境之间的差距，ALFWorld[131]将基于文本的输入与互动学习场景对齐，便于评估模型在不同模态之间转移知识的能力。

综合评估框架如 AgentBench[79]和 AgentGym[164]已经被开发出来，以系统地评估作为智能体的大语言模型。AgentBench 包括不同的环境来评估推理和决策技能，而 AgentGym 专注于在不同环境中进化基于大语言模型的智能体，强调适应性和学习效率。此外，AgentBoard[87]提供了一个分析平台，用于评估多轮大语言模型智能体，提供对其在扩展交互中的性能的洞察，并突出在持续推理任务中需要改进的领域。

十、讨论

10.1 近期进展的启示

训练后阶段的缩放定律。OpenAI o1 系列带来的启示导致了对预训练/训练/推理阶段的新理解。特别是，它涉及在训练后阶段引入自我对弈强化学习和高质量思维链标注数据的过程奖励学习。进一步，它延伸到训练后阶段的缩放定律，这为训练阶段缩放定律进一步发展的困难提供了启示。如我们所知，预训练和训练阶段的缩放定律导致了流行的大语言模型的成功，这得益于大量的训练数据和计算资源投入。然而，现在它遇到了瓶颈，因此，训练后阶段的缩放定律可能成为大型语言模型下一阶段发展的驱动力。此外，大语言模型驱动的智能体[163]即使在推理能力未得到强化的情况下，通过精心设计的工作流程也显示出了巨大的潜力。因此，对于大语言模型智能体在资源消耗和性能方面是否也会有类似的缩放定律仍然是一个开放问题，这可能是在现实世界应用中进一步增强大语言模型的潜力。最后，目前展示的测试时间缩放定律和模型的指令跟随能力之间可能存在关系；也就是说，它必须有足够强的指令跟随能力才能展示测试时间缩放定律。例如，言语强化搜索技术的成功需要大语言模型具有基本的指令跟随能力。因此，如果大语言模型不能准确地遵循指令，复杂的训练后技术可能无法正常工作。

通过搜索生成高质量数据。OpenAI o1 系列核心技术人员披露的技术思路以及试图重现 OpenAI o1 的开源工作目前都将生成高质量数据（包括思维链数据）视为关键，尽管采用了不同的方法，如蒙特卡洛树搜索、大语言模型生成等。也就是说，大型推理模型的发展已经到了一个阶段，高质量的过程奖励数据比一般的预训练数据规模更重要。同样，如上文所讨论的，这可能启发我们在大语言模型智能体中也参考这些相关方法，首先进行高质量数据生成，然后增强慢推理学习和能力获取。

10.2 慢思考和推理

即使 OpenAI o1 系列在工程层面的突破仍然未知，但从理论和技术上讲，其目前的突破似乎主要在于慢思考数据的训练后学习。此外，“系统 1 + 系统 2”的人类认知科学已被多次提及，但基于大型模型实现它的思路一直在不断更新，主要仍停留在借鉴慢思考概念的阶段。也就是说，人类大脑的名为“系统 1 + 系统 2”的机制指导了大语言模型的设计，但这种指导仍然非常有限。换句话说，对人类大脑的模仿只是在系统层面的设计，而不是非常详细的技术。人类慢思考的复杂机制及其益处仍然显示出支持大语言模型下一级推理能力的高潜力。为了实现这一点，应该在推理数据生成、奖励函数、学习过程等相关设计中使用慢思考的领域知识。

到目前为止，还没有关于大语言模型慢思考的真正重要和有代表性的理论分析工作。生成式人工智能如此神秘，理解大语言模型也需要一些技巧或特殊技术，如理解大语言模型幻觉的新指标[37]。为了理解慢推理能力，我们可能也需要进入理论分析。以 OpenAI o1 Preview 和 OpenAI o1 Mini 这两个不同版本为例，主要区别在于思维链推理阶段的成本和思考深度，但它们在文本生成、代码生成和数学问题解决等任务中表现出了显著的差异。大语言模型展示的推理特性也启发我们设计适应任务的使用和应用。具体来说，将推理机制与不同任务中的性能联系起来可能会支持更有趣的见解。

10.3 下游应用和开放问题

如本文通篇所指出的，推理增强技术的进展迅速。推理能力不限于这些流行基准任务中的任务，还包括下游应用中的更一般任务。例如，FunSearch 工作[115]展示了处理难以提供解决方案但验证快速的任务的一般能力。在各个领域可能存在许多具有类似特征的任务，如城市规划、物流调度等。一个有趣的问题是，当前研究中是否可能存在许多互补问题，这些问题难以验证，但推理过程更容易。可能可以通过结合大语言模型和外部评估器进一步验证一些答案的质量，或者我们可以使用这些有评估分数的答案来训练奖励模型。

十一、结论

大语言模型的近期发展显著提升了它们的类人推理能力。引入“思维”等中间步骤概念、利用强化学习技术进行训练时间缩放以及使用搜索算法进行测试时间缩放等创新为大型推理模型奠定了基础，这些模型能够处理日益复杂的认知任务，如 OpenAI 的 o1 系列所示。该领域的持续进展有望重塑我们对语言的理解以及人工智能在解决现实世界问题中的应用。

参考资料