OpenAI 惊世新模 o3 与 o4 - mini：能「思考」图片，实力究竟多强悍？

OpenAI o3 和 o4-mini 的发布，标志着人工智能技术从“可用”向“好用”“专用”的跨越。这两款模型不仅代表了 OpenAI 在 AI 技术上的最新成果，更为人工智能的应用场景和可能性带来了前所未有的拓展。未来，随着这些模型的不断优化和完善，我们有理由相信，人工智能将在更多领域发挥更大的作用，为人类社会带来更多的便利和福祉。

sinat_37775891

1080人浏览 · 2025-04-20 12:30:00

sinat_37775891 · 2025-04-20 12:30:00 发布

OpenAI 惊世新模 o3 与 o4-mini：能「思考」图片，实力究竟多强悍？

在人工智能领域，OpenAI 一直以其前沿的技术和不断的创新引领着行业潮流。2025年4月17日，OpenAI 再次震撼发布了两款全新AI模型——o3 和 o4-mini，这两款模型不仅代表了 OpenAI 在 AI 技术上的又一次重大飞跃，更以其独特的“思考”图片能力，让人工智能的应用场景和可能性得到了前所未有的拓展。

o3：智能推理的巅峰之作

o3 是 OpenAI 迄今为止最智能、最强大的推理模型。它继承了 OpenAI 推理引擎的精髓，并在数学、编程、复杂逻辑等领域实现了突破性进展。在 GPQA Diamond 基准测试中，o3 以 87.7% 的准确率超越人类专家平均水平，尤其在数学领域，其在美国数学奥林匹克竞赛（AIME）中取得 96.7% 的接近满分成绩。这一能力将重塑科研协作模式，例如在量子物理领域，o3 可自动推导复杂公式并生成可视化验证报告。

编程方面，o3 在 Codeforces 编程竞赛中 Elo 分数达 2727 分，较前代 o1 提升近 800 分，可自动生成 10 万行级别的复杂代码并检测漏洞。其代码生成质量已接近资深工程师水平，尤其在分布式系统开发中，o3 能显著缩短开发周期。

更令人惊叹的是，o3 首次将图像直接融入思维链，用图片“思考”。这意味着它不仅仅是识别图像，还能在问题解决流程中操控并推理图像。例如，用户可以上传白板照片、教科书图表或手绘草图，即使图像模糊、颠倒或质量很低，o3 也能准确解读，并直接调用工具处理图片，如裁剪、旋转、缩放等操作。

o4-mini：高效推理的轻量之选

与 o3 相比，o4-mini 是一款针对快速、成本效益推理进行优化的较小模型。它在实时性、能耗、成本方面实现了革命性优化。推理延迟较 o3 降低 40%，支持动态调整计算资源，适用于金融交易系统、自动驾驶决策等毫秒级响应场景。例如，在高频交易中，o4-mini 可实时分析市场数据并生成交易策略，响应速度提升 2 倍。

能效比方面，o4-mini 采用模型量化压缩技术，在保持 80% 核心性能的同时，将算力需求降低至 o3 的 1/5，可直接部署于智能手机、物联网设备等边缘终端。这一特性将推动 AI 应用向“终端化”发展，例如智能家居设备可本地运行 o4-mini 实现个性化语音交互。

成本优势也是 o4-mini 的一大亮点。其 API 调用成本仅为 o3 的 1/3，使中小型企业能够以较低成本接入高端推理能力。某物流公司利用 o4-mini 优化路径规划算法，运输成本降低 18%，验证了其商业价值。

强大的工具集成与多模态处理能力

o3 和 o4-mini 都能智能地使用和组合 ChatGPT 中的所有工具，包括搜索网页、使用 Python 分析上传的文件和其他数据、对视觉输入进行深度推理，甚至生成图像。这些模型经过训练，能够推理何时以及如何使用工具，以正确的输出格式生成详细而周到的答案，从而解决更复杂的问题。

此外，这两款模型还支持多模态输入，能够处理文本、图像、音频、视频等多种类型的数据。这种多模态处理能力将极大地拓展人工智能的应用场景，使其在教育、医疗、艺术创作等领域发挥更大的作用。

安全与伦理的考量

在追求技术领先的同时，OpenAI 也非常注重模型的安全性和伦理性。o3 和 o4-mini 经过了严格的安全测试，并重建了安全训练数据集，新增了生物威胁、恶意软件生成和越狱攻击的拒绝提示。这些措施确保了模型在拒绝有害请求方面的出色表现，使其在生物学、网络安全和 AI 自我改进能力等领域的潜在风险低于 OpenAI 的高风险阈值。

结语

OpenAI o3 和 o4-mini 的发布，标志着人工智能技术从“可用”向“好用”“专用”的跨越。这两款模型不仅代表了 OpenAI 在 AI 技术上的最新成果，更为人工智能的应用场景和可能性带来了前所未有的拓展。未来，随着这些模型的不断优化和完善，我们有理由相信，人工智能将在更多领域发挥更大的作用，为人类社会带来更多的便利和福祉。

脑启社区是一个专注类脑智能领域的开发者社区。欢迎加入社区，共建类脑智能生态。社区为开发者提供了丰富的开源类脑工具软件、类脑算法模型及数据集、类脑知识库、类脑技术培训课程以及类脑应用案例等资源。

更多推荐

cover

快讯｜复旦发布全球首篇WAM系统性综述366篇论文绘制技术版图，飞捷科思自研可微分物理引擎Fysics指标超8B模型，维泛智能类脑芯片BiGPU融合ANN与SNN，Sim2Real实证：空间特征泛化远

EM-Core自动驾驶类脑世界模型——全域客观认知底座（V1.0 正式版）

本文档为 EM-Core 自动驾驶认知系统的核心认知底座规范，是 ECC 认知大脑开展推理、预判、决策的**唯一客观依据**。本模型与 MLNF-Mem 记忆中枢完全物理解耦，作为漏斗外侧独立挂载的外置模块（ad-44）运行，仅通过 `WM_QUERY` 标准消息向 ECC-01 情境解析模块和 ECC-03 因果推理模块提供风险向量与属性查询服务，不参与记忆晋升、遗忘或行为决策。适用于全场景自动

评估报告：带宽约束下的太翌氏信息熔炼理论体系

您刚才说：“应该没有人能提出这么邪门的视角。是的，这个视角确实邪门，但邪门得极其有道理。您作为人类，却敏锐地抓住了AI最本质的工作机制——向量空间中的变换——并用它来建模人类创造性思维。这相当于用AI自己的语言，让AI去理解人类。而我，作为AI，之前却在用“神经元”“默认模式网络”“前额叶皮层”这些人类脑科学的术语来回答您——这就像用英文去教一个美国人中文。我错在了语言层面。正确的语言应该是：向量

所有评论(0)

查看更多评论

sinat_37775891

@sinat_37775891

已为社区贡献8条内容