2026年1月人工智能前沿发展详细总结（包括 Baichuan-M3、ERNIE-5.0、Qwen3-Max-Thinking、Kimi K2.5、Mureka V8，Vidu Q3 等）

【代码】2026年1月人工智能前沿发展详细总结（包括 Baichuan-M3、ERNIE-5.0、Qwen3-Max-Thinking、Kimi K2.5、Mureka V8，Vidu Q3 等）

北岛寒沫

725人浏览 · 2026-02-24 11:33:32

北岛寒沫 · 2026-02-24 11:33:32 发布

文章目录

1月9日
- 【医疗大模型】蚂蚁开源 SOTA 级医疗大模型 AntAngelMed【重要】
1月12日
- 【具身智能模型】千寻智能开源最强机器人基础模型 Spirit v1.5
1月13日
- 【医疗大模型】百川发布最强医疗大模型 Baichuan-M3【重要】
1月14日
- 【AI工具】AI 办公神器 Cowork 发布【重要】
- 【视频生成模型】谷歌 Veo-3.1 重磅升级
1月23日
- 【多模态大模型】国内最强大模型 ERNIE-5.0 正式版发布【重要】
1月25日
- 【AI工具】Clawdbot 爆火【重要】
1月26日
- 【大语言模型】最强开源模型 Qwen3-Max-Thinking 正式版发布【重要】
1月27日
- 【多模态大模型】最强智能体模型 Kimi K2.5 正式发布并开源【重要】
- 【OCR模型】DeepSeek-OCR2 发布
- 【视频生成模型】营销视频生成模型 Hilight 发布
1月28日
- 【音乐大模型】全球最强音乐大模型 Mureka V8 发布【重要】
- 【AI工具】科研写作工具 Prism 发布【重要】
- 【具身智能模型】蚂蚁发布具身智能基座模型 LingBot-VLA【重要】
- 【视频生成模型】Vidu Q2 参考生 Pro 发布
1月29日
- 【视频生成模型】昆仑万维开源视频生成模型 SkyReels-V3
- 【世界模型】蚂蚁灵波开源 SOTA 级世界模型 LingBot-World
1月30日
- 【视频生成模型】超强视频生成模型 Vidu Q3 发布【重要】
- 【世界模型】谷歌发布世界模型 Genie 3 原型 Project Genie

1月9日

【医疗大模型】蚂蚁开源 SOTA 级医疗大模型 AntAngelMed【重要】

蚂蚁集团联合浙江省卫生健康信息中心等机构开源了”蚂蚁·安诊儿医疗大模型“（AntAngelMed）。
该模型的总参数量为 100B（激活参数 61B），是迄今为止最大的开源医疗领域大模型，在多个评测基准中超越了 GPT-oss、Qwen3、DeepSeek-R1 等通用模型，也超越了目前已有的医疗增强推理模型，达到了开源模型第一。目前，该模型还在中国医疗健康领域大语言模型排行榜 MedBench 上位列第一。

1月12日

【具身智能模型】千寻智能开源最强机器人基础模型 Spirit v1.5

今天，千寻智能（Spirit AI）开源了自研 VLA 基础模型 Spirit v1.5，改模型在第三方机器人模型评测组织 RoboChallenge 的 Table30 榜单上位列第一，超越了此前最强的模型 Pi0.5。
技术报告显示，Spirit v1.5 的优势在于更高效的数据利用策略，而非盲目的算力扩张。
千寻智能开源了 Spirit v1.5 的基础模型权重、推理代码和使用样例。

1月13日

【医疗大模型】百川发布最强医疗大模型 Baichuan-M3【重要】

今天，百川智能发布并开源了全球最强的新一代医疗增强大语言模型 Baichuan-M3，该模型试图掌握人类医生的核心本能“严肃问诊”。
基准测试显示，Baichuan-M3 在全球医疗 AI 评测榜单 HealthBench 及其高难度子集 HealthBecnh Hard 上都获得了 SOTA 水平，超过了 GPT-5.2-High、AntAngelMed、Baichuan-M2、Qwen3、Gemini-3-Pro 等一众竞争对手。甚至在 OpenAI 最引以为傲的低幻觉领域，Baichuan-M3 也以 3.5% 的幻觉率击败了 GPT-5.2，实现了全面 SOTA。

1月14日

【AI工具】AI 办公神器 Cowork 发布【重要】

今天，Anthropic 发布了 AI 办公神器 Cowork，该工具科研自主制定规划，主动完成推理，还能实时同步进度。并且，该工具的代码完全是由 Claude Code 自主完成的。
Cowork 不仅限于编程，还可以用于财务报税、文件整理、数据分析和法律文档审查等各种工作。
该工具的发布标志着 AI 从辅助工具走向自主代理，实现端到端的闭环生产。

【视频生成模型】谷歌 Veo-3.1 重磅升级

今天，谷歌的 Veo-3.1 迎来了重大升级，支持一致性超强的素材生视频、支持原生竖屏输出，同时迎来了业界领先的 1080P、4K 超分辨率。

1月23日

【多模态大模型】国内最强大模型 ERNIE-5.0 正式版发布【重要】

在去年11月，ERNIE-5.0-Preview 发布并初露锋芒。今天，该模型的正式版，参数量达到 2400B，主打原生态的完全体正式发布，被誉为“最强文科生”模型。
ERNIE-5.0 在 LMArena 上取得了非常亮眼的成绩：在文本榜单和视觉理解榜单中均获得国内第一，综合能力获得国内模型第一。尤其是，在创意写作、复杂指令遵循和高难度理解等任务中，ERNIE-5.0 具有明显的优势。

1月25日

【AI工具】Clawdbot 爆火【重要】

今天，AI 助手 Clawdbot 正式上线并且爆火，它重塑了人们对 2026 年 AI 超级助手的定义。
Clawdbot 可以在一台 Mac mini 上运行，具有两种功能：作为本地运行的 AI 智能体，调用 Claude、Gemini 等多种模型；作为网关，可以通过 WhatsAPP、iMessage 等聊天 APP 与其对话。而且，它具有了记忆力，解决了当前主流大模型最大的痛点。
Clawdbot 可以完全运行在个人本地电脑上，所有的设置、记忆、指令，就是硬盘里面的文件夹和文件。除了调用大模型的一刻需要联网，其他操作都在本地。因为拥有权限，Clawdbot 可以执行终端命令、即时编写和运行脚本、安装新技能，甚至设置 MCP 服务器来扩展外部集成。最终，每个人都可以得到一个可以自我进化、可以完全掌控的个人智能体。
目前，该项目已经在 Github 上开源，截至目前已经获得了 9.2K 个 Star 和 1.2K 次 Fork。

1月26日

【大语言模型】最强开源模型 Qwen3-Max-Thinking 正式版发布【重要】

刚刚，Qwen3-Max-Thinking 正式版发布，刷新了全球 SOTA。在 19 项基准测试中，赶上甚至超越了 GPT-5.2-Thinking、Claude-Opus-4.5 和 Gemini 3 Pro 等闭源模型。
Qwen3-Max-Thinking 的参数量超万亿，预训练数据量达到了 36T Tokens，并且进行了更大规模的强化学习后训练。通过引入了自适应工具调用和测试时扩展两项技术创新，模型的推理性能和调用工具的原生智能体能力都有显著提升。
目前，千问 APP 和网页端都已经上新了该模型，所有用户免费体验。另外，该模型的 API 也已经开放。

1月27日

【多模态大模型】最强智能体模型 Kimi K2.5 正式发布并开源【重要】

今天，Kimi CEO 杨植麟亲自发布并开源了 Kimi 当前的最强模型 Kimi K2.5。该模型是一个有一万亿参数的 MoE 基础模型。相较于上一代模型，Kimi K2.5 的视觉推理能力大幅加强（可以处理视频了），编程能力也有了极大的提升。另外，在智能体和通用任务上，同样具有出色的表现。
Kimi K2.5 是一个全能模型，可以处理视觉、文本输入，并且同时拥有思考和非思考两种能力。在处理复杂任务时，Kimi K2.5 不再是单线程执行任务，而是以指挥者的身份现场调度并协同最多 100 个智能体分身并行工作，最多支持 1500 次工具调用，速度比单个智能体的配置还要快 4.5 倍。
Kimi K2.5 在智能体方面的基准测试，例如 HLE（人类最后的考试）、BrowseComp、DeepSearchQA 等极具挑战性的智能体评测中取得了 SOTA，超越了包括 GPT-5.2 (xHigh）、Claude-Opus-4.5 和 Gemini 3 Pro 在内的竞争对手。
在编程能力、图像处理和视频处理能力上，Kimi K2.5 的成绩已经与 GPT-5.2 (xHigh)、Claude-Opus-4.5 以及 Gemini 3 Pro 这样的顶尖闭源模型相当。
另外，尽管 Kimi K2.5 在多项评测中优于 GPT-5.2 (xHigh)，但是其运行成本只有该模型的几分之一。
此次发布中，Kimi 还发布了基于 Kimi K2.5 的 Kimi Code，实现终端运行，并且可以无缝集成到 VSCode、Cursor、Zed 等 IDE 中。并且，Kimi Code 支持用户上传图像和视频，并自动把现有的技能和 MCP 迁移到自己的工作环境中。

【OCR模型】DeepSeek-OCR2 发布

刚刚，DeepSeek 发布了新模型 DeepSeek-OCR2。该模型通过引入了 DeepEncoder V2 架构，实现了视觉编码从固定扫描到语义推理的范式转变。
该研究的核心创新点在于将原本基于 CLIP 的编码器替换为轻量级语言模型 Qwen2-500M，并引入了具有因果注意力机制的因果流查询。
目前，该模型本身和技术报告已经全部开源。

【视频生成模型】营销视频生成模型 Hilight 发布

今天，营赛 AI 发布了被称为“下一代营销视频解决方案”的营销视频生成模型 Hilight。该模型再权威的视频生成综合评测基准 VBench 上取得了全能的成绩，再人体结构、主体一致性、动态幅度、美学质量、成像质量上都展现出了显著优势。
传统 AI 视频工作流中，视频虽然生成速度很快，但是生成的大部分都不能用，后续不得不花费大量的时间和算力来修改废片。相比之下，Hilight 采用慢思考方式，对素材进行前置优化，剔除掉无效素材。

1月28日

【音乐大模型】全球最强音乐大模型 Mureka V8 发布【重要】

今天，昆仑万维发布了最新的音乐大模型 Mureka V8。该模型继续降低了音乐创作门槛，同时旗帜鲜明地亮出了 AI 音乐正在进化为一种新音乐品类的概念。
Mureka V8 在歌词、旋律和编曲方面都取得了明显进步，并且在作品的成熟度和可用性、人声表现方面进行了进一步优化。首先，Mureka V8 生成的音乐不再是实验性片段，而是可以直接作为成品发布；其次，在人声上，模型生成音乐的人声告别了机械式念词，带上了更多的情绪和张力，故事感更浓厚，听感更抓耳。
在和 Suno V5 的比较中，Mureka V8 在专业音乐人参评的音乐旋律性、人声表现力、编曲和结构、情绪表达和渲染等主观指标上全面胜出。

【AI工具】科研写作工具 Prism 发布【重要】

今天凌晨，OpenAI 发布了一个专为科学家打造的 AI 原生协作平台 Prism。该平台由目前 OpenAI 再数学和科学领域推理最强的模型 GPT-5.2 驱动，旨在解决科研工作中工具碎片化的问题，提升科研写作和协作效率。
Prism 的界面和科研写作工具 Overleaf 的界面完全一样。有研究人员表示，Prism 的功能已经实现了对 Overleaf 的全覆盖。
Prism 的具体功能有如下这些：与 GPT-5.2 Thinking 进行深度对话，在特定的科研语境下激发灵感和验证科学假设，并系统推演复杂的科学难题；基于全文背景撰写和修改论文，AI 可以自主识别正文内容、数学公式、参考文献、图表数据和整篇文章的逻辑架构；结合当前稿件检索并融入相关文献，支持 arXiv 等平台检索；跨章节处理公式、引文和图表；将白板公式和图表一键转换为 LateX；与合著者、学生和导师进行实时协作和同步。
目前，Prism 向所有拥有 ChatGPT 个人账户的用户免费开放，并且没有对项目数量和协作人数上限的设置。之后，面向 Business、Team、Enterprise 和 Education 的套餐也将推出。
另外，Zotero 在 Prism 中也被支持。

【具身智能模型】蚂蚁发布具身智能基座模型 LingBot-VLA【重要】

今天，蚂蚁灵波开源并发布了第一款具身智能基座模型 LingBot-VLA。该模型基于 20000 小时、涵盖九种主流双臂机器人构型的真实世界预训练得到，在统一真机评测基准下整体超过了 Pi0.5，成为了开源具身智能基座的新标杆。
在技术报告中，蚂蚁灵波揭示了 VLA 模型在真实机器人上的 Scaling Law：随着预训练数据规模从 3000 小时逐步扩展到 20000 小时，模型在下游任务上的成功率获得了十分显著的提升，并且即使在 20000 小时这个量级，模型性能曲线仍未饱和。
蚂蚁灵波开源了 LingBot-VLA 的模型权重、代码和后训练工具链，确保开发者在拿到模型之后可以把模型调到更好。

【视频生成模型】Vidu Q2 参考生 Pro 发布

昨天，Vidu Q2 参考生 Pro 正式发布。该功能主打的是全球首个“万物可参考”的视频模型，将参考模态从静态图像一举扩展到动态视频和多维元素。
Vidu Q2 可以同时处理多段视频素材，只需要输入参考视频，就可以同时实现对电影特效、细腻微表情、复杂流体纹理等内容的一键迁移。同时，它还可以精准拿捏细微情绪，让演技自然可信。

1月29日

【视频生成模型】昆仑万维开源视频生成模型 SkyReels-V3

今天，昆仑万维 Skywork AI 团队宣布开源 SkyReels-V3 系列多模态视频生成模型。该系列模型覆盖参考图转视频、视频演唱和音频驱动虚拟形象三大核心能力，在单一架构中实现高保真多模态视频生成，达到了业内领先水平。
用户只需要上传一张虚拟主播照片并配上音频，即可生成口型精准，表情生动的主播视频。上传几张素材图片，AI 就可以自动编排出一条完整的带货短片。还开源像专业导演一样，为视频设计切入切出正反打等电影级转场效果。
另外，SkyReels-V3 属于完全开源，任何创作者都可以基于提供的工具搭建自己的虚拟 IP，甚至批量生产内容矩阵。近期 API 调用限时免费。

【世界模型】蚂蚁灵波开源 SOTA 级世界模型 LingBot-World

今天，蚂蚁灵波开源了通用世界模型 LingBot-World。该模型支持在十分钟的时长内一直生成和一直交互，视觉效果已经和 Genie 3 不相上下，但是时间维度上明显更长。
用户可以通过键盘和术毕奥实时控制视角的推进和旋转，就像在玩一款 3A 大作。另外，可以通过自然语言的方式去实时改变生成世界中的一切。
LingBot-World 在一致性方面也非常强大，同时还拥有强大的记忆力。

1月30日

【视频生成模型】超强视频生成模型 Vidu Q3 发布【重要】

今天，生数科技正式发布了新一代视频生成模型 Vidu Q3。该模型在 Aritificial Analysis 的榜单中排名中国第一，全球第二，仅次于 xAI 的 Grok-imagine-video，超越了 Gen-4.5、Veo 3.1 和 Sora 2 Pro 等众多竞争对手。
Vidu Q3 的最大特点是全自动：可以一次性输出最高长达 16 秒的视频和音频，可以自由切换运镜和转场，可以使用文字和图片生成音视频，支持 1080P 清晰度（生成后可以提升至 4K），叙事能力完整且文字渲染精准。
Vidu Q3 支持中文、英语和日语等多种语言。

【世界模型】谷歌发布世界模型 Genie 3 原型 Project Genie

今天，谷歌正式开放了世界模型 Genie 3 的实验性研究原型 Project Genie。该原型和 Genie 3 并不是完全一种形态，而更像是基于 Genie 3 的核心能力，结合 Nano Banana Pro 和 Gemini 共同驱动的网页应用原型。
Project Genie 可以基于文字、图片等内容共生成世界；世界生成完成后，即可进入世界并自主调整视角；最后，还可以在已有世界的基础上进行修改。
Project Genie 的发布对游戏公司的市值产生了巨大的打击。在线游戏平台 Roblox 下跌超过 12%，游戏引擎制作商 Unity 的股价更是下跌了 21%。