1月9日

【医疗大模型】蚂蚁开源 SOTA 级医疗大模型 AntAngelMed【重要】

  • 蚂蚁集团联合浙江省卫生健康信息中心等机构开源了”蚂蚁·安诊儿医疗大模型“(AntAngelMed)。
  • 该模型的总参数量为 100B(激活参数 61B),是迄今为止最大的开源医疗领域大模型,在多个评测基准中超越了 GPT-ossQwen3DeepSeek-R1 等通用模型,也超越了目前已有的医疗增强推理模型,达到了开源模型第一。目前,该模型还在中国医疗健康领域大语言模型排行榜 MedBench 上位列第一。

1月12日

【具身智能模型】千寻智能开源最强机器人基础模型 Spirit v1.5

  • 今天,千寻智能(Spirit AI)开源了自研 VLA 基础模型 Spirit v1.5,改模型在第三方机器人模型评测组织 RoboChallenge 的 Table30 榜单上位列第一,超越了此前最强的模型 Pi0.5
  • 技术报告显示,Spirit v1.5 的优势在于更高效的数据利用策略,而非盲目的算力扩张。
  • 千寻智能开源了 Spirit v1.5 的基础模型权重、推理代码和使用样例。

1月13日

【医疗大模型】百川发布最强医疗大模型 Baichuan-M3【重要】

  • 今天,百川智能发布并开源了全球最强的新一代医疗增强大语言模型 Baichuan-M3,该模型试图掌握人类医生的核心本能“严肃问诊”。
  • 基准测试显示,Baichuan-M3 在全球医疗 AI 评测榜单 HealthBench 及其高难度子集 HealthBecnh Hard 上都获得了 SOTA 水平,超过了 GPT-5.2-HighAntAngelMedBaichuan-M2Qwen3Gemini-3-Pro 等一众竞争对手。甚至在 OpenAI 最引以为傲的低幻觉领域,Baichuan-M3 也以 3.5% 的幻觉率击败了 GPT-5.2,实现了全面 SOTA。

1月14日

【AI工具】AI 办公神器 Cowork 发布【重要】

  • 今天,Anthropic 发布了 AI 办公神器 Cowork,该工具科研自主制定规划,主动完成推理,还能实时同步进度。并且,该工具的代码完全是由 Claude Code 自主完成的。
  • Cowork 不仅限于编程,还可以用于财务报税、文件整理、数据分析和法律文档审查等各种工作。
  • 该工具的发布标志着 AI 从辅助工具走向自主代理,实现端到端的闭环生产。

【视频生成模型】谷歌 Veo-3.1 重磅升级

  • 今天,谷歌的 Veo-3.1 迎来了重大升级,支持一致性超强的素材生视频、支持原生竖屏输出,同时迎来了业界领先的 1080P、4K 超分辨率。

1月23日

【多模态大模型】国内最强大模型 ERNIE-5.0 正式版发布【重要】

  • 在去年11月,ERNIE-5.0-Preview 发布并初露锋芒。今天,该模型的正式版,参数量达到 2400B,主打原生态的完全体正式发布,被誉为“最强文科生”模型。
  • ERNIE-5.0 在 LMArena 上取得了非常亮眼的成绩:在文本榜单和视觉理解榜单中均获得国内第一,综合能力获得国内模型第一。尤其是,在创意写作、复杂指令遵循和高难度理解等任务中,ERNIE-5.0 具有明显的优势。

1月25日

【AI工具】Clawdbot 爆火【重要】

  • 今天,AI 助手 Clawdbot 正式上线并且爆火,它重塑了人们对 2026 年 AI 超级助手的定义。
  • Clawdbot 可以在一台 Mac mini 上运行,具有两种功能:作为本地运行的 AI 智能体,调用 Claude、Gemini 等多种模型;作为网关,可以通过 WhatsAPP、iMessage 等聊天 APP 与其对话。而且,它具有了记忆力,解决了当前主流大模型最大的痛点。
  • Clawdbot 可以完全运行在个人本地电脑上,所有的设置、记忆、指令,就是硬盘里面的文件夹和文件。除了调用大模型的一刻需要联网,其他操作都在本地。因为拥有权限,Clawdbot 可以执行终端命令、即时编写和运行脚本、安装新技能,甚至设置 MCP 服务器来扩展外部集成。最终,每个人都可以得到一个可以自我进化、可以完全掌控的个人智能体。
  • 目前,该项目已经在 Github 上开源,截至目前已经获得了 9.2K 个 Star 和 1.2K 次 Fork。

1月26日

【大语言模型】最强开源模型 Qwen3-Max-Thinking 正式版发布【重要】

  • 刚刚,Qwen3-Max-Thinking 正式版发布,刷新了全球 SOTA。在 19 项基准测试中,赶上甚至超越了 GPT-5.2-ThinkingClaude-Opus-4.5Gemini 3 Pro 等闭源模型。
  • Qwen3-Max-Thinking 的参数量超万亿,预训练数据量达到了 36T Tokens,并且进行了更大规模的强化学习后训练。通过引入了自适应工具调用和测试时扩展两项技术创新,模型的推理性能和调用工具的原生智能体能力都有显著提升。
  • 目前,千问 APP 和网页端都已经上新了该模型,所有用户免费体验。另外,该模型的 API 也已经开放。

1月27日

【多模态大模型】最强智能体模型 Kimi K2.5 正式发布并开源【重要】

  • 今天,Kimi CEO 杨植麟亲自发布并开源了 Kimi 当前的最强模型 Kimi K2.5。该模型是一个有一万亿参数的 MoE 基础模型。相较于上一代模型,Kimi K2.5 的视觉推理能力大幅加强(可以处理视频了),编程能力也有了极大的提升。另外,在智能体和通用任务上,同样具有出色的表现。
  • Kimi K2.5 是一个全能模型,可以处理视觉、文本输入,并且同时拥有思考和非思考两种能力。在处理复杂任务时,Kimi K2.5 不再是单线程执行任务,而是以指挥者的身份现场调度并协同最多 100 个智能体分身并行工作,最多支持 1500 次工具调用,速度比单个智能体的配置还要快 4.5 倍。
  • Kimi K2.5 在智能体方面的基准测试,例如 HLE(人类最后的考试)、BrowseComp、DeepSearchQA 等极具挑战性的智能体评测中取得了 SOTA,超越了包括 GPT-5.2 (xHigh)Claude-Opus-4.5Gemini 3 Pro 在内的竞争对手。
  • 在编程能力、图像处理和视频处理能力上,Kimi K2.5 的成绩已经与 GPT-5.2 (xHigh)Claude-Opus-4.5 以及 Gemini 3 Pro 这样的顶尖闭源模型相当。
  • 另外,尽管 Kimi K2.5 在多项评测中优于 GPT-5.2 (xHigh),但是其运行成本只有该模型的几分之一。
  • 此次发布中,Kimi 还发布了基于 Kimi K2.5 的 Kimi Code,实现终端运行,并且可以无缝集成到 VSCode、Cursor、Zed 等 IDE 中。并且,Kimi Code 支持用户上传图像和视频,并自动把现有的技能和 MCP 迁移到自己的工作环境中。

【OCR模型】DeepSeek-OCR2 发布

  • 刚刚,DeepSeek 发布了新模型 DeepSeek-OCR2。该模型通过引入了 DeepEncoder V2 架构,实现了视觉编码从固定扫描到语义推理的范式转变。
  • 该研究的核心创新点在于将原本基于 CLIP 的编码器替换为轻量级语言模型 Qwen2-500M,并引入了具有因果注意力机制的因果流查询。
  • 目前,该模型本身和技术报告已经全部开源。

【视频生成模型】营销视频生成模型 Hilight 发布

  • 今天,营赛 AI 发布了被称为“下一代营销视频解决方案”的营销视频生成模型 Hilight。该模型再权威的视频生成综合评测基准 VBench 上取得了全能的成绩,再人体结构、主体一致性、动态幅度、美学质量、成像质量上都展现出了显著优势。
  • 传统 AI 视频工作流中,视频虽然生成速度很快,但是生成的大部分都不能用,后续不得不花费大量的时间和算力来修改废片。相比之下,Hilight 采用慢思考方式,对素材进行前置优化,剔除掉无效素材。

1月28日

【音乐大模型】全球最强音乐大模型 Mureka V8 发布【重要】

  • 今天,昆仑万维发布了最新的音乐大模型 Mureka V8。该模型继续降低了音乐创作门槛,同时旗帜鲜明地亮出了 AI 音乐正在进化为一种新音乐品类的概念。
  • Mureka V8 在歌词、旋律和编曲方面都取得了明显进步,并且在作品的成熟度和可用性、人声表现方面进行了进一步优化。首先,Mureka V8 生成的音乐不再是实验性片段,而是可以直接作为成品发布;其次,在人声上,模型生成音乐的人声告别了机械式念词,带上了更多的情绪和张力,故事感更浓厚,听感更抓耳。
  • 在和 Suno V5 的比较中,Mureka V8 在专业音乐人参评的音乐旋律性、人声表现力、编曲和结构、情绪表达和渲染等主观指标上全面胜出。

【AI工具】科研写作工具 Prism 发布【重要】

  • 今天凌晨,OpenAI 发布了一个专为科学家打造的 AI 原生协作平台 Prism。该平台由目前 OpenAI 再数学和科学领域推理最强的模型 GPT-5.2 驱动,旨在解决科研工作中工具碎片化的问题,提升科研写作和协作效率。
  • Prism 的界面和科研写作工具 Overleaf 的界面完全一样。有研究人员表示,Prism 的功能已经实现了对 Overleaf 的全覆盖。
  • Prism 的具体功能有如下这些:与 GPT-5.2 Thinking 进行深度对话,在特定的科研语境下激发灵感和验证科学假设,并系统推演复杂的科学难题;基于全文背景撰写和修改论文,AI 可以自主识别正文内容、数学公式、参考文献、图表数据和整篇文章的逻辑架构;结合当前稿件检索并融入相关文献,支持 arXiv 等平台检索;跨章节处理公式、引文和图表;将白板公式和图表一键转换为 LateX;与合著者、学生和导师进行实时协作和同步。
  • 目前,Prism 向所有拥有 ChatGPT 个人账户的用户免费开放,并且没有对项目数量和协作人数上限的设置。之后,面向 Business、Team、Enterprise 和 Education 的套餐也将推出。
  • 另外,Zotero 在 Prism 中也被支持。

【具身智能模型】蚂蚁发布具身智能基座模型 LingBot-VLA【重要】

  • 今天,蚂蚁灵波开源并发布了第一款具身智能基座模型 LingBot-VLA。该模型基于 20000 小时、涵盖九种主流双臂机器人构型的真实世界预训练得到,在统一真机评测基准下整体超过了 Pi0.5,成为了开源具身智能基座的新标杆。
  • 在技术报告中,蚂蚁灵波揭示了 VLA 模型在真实机器人上的 Scaling Law:随着预训练数据规模从 3000 小时逐步扩展到 20000 小时,模型在下游任务上的成功率获得了十分显著的提升,并且即使在 20000 小时这个量级,模型性能曲线仍未饱和。
  • 蚂蚁灵波开源了 LingBot-VLA 的模型权重、代码和后训练工具链,确保开发者在拿到模型之后可以把模型调到更好。

【视频生成模型】Vidu Q2 参考生 Pro 发布

  • 昨天,Vidu Q2 参考生 Pro 正式发布。该功能主打的是全球首个“万物可参考”的视频模型,将参考模态从静态图像一举扩展到动态视频和多维元素。
  • Vidu Q2 可以同时处理多段视频素材,只需要输入参考视频,就可以同时实现对电影特效、细腻微表情、复杂流体纹理等内容的一键迁移。同时,它还可以精准拿捏细微情绪,让演技自然可信。

1月29日

【视频生成模型】昆仑万维开源视频生成模型 SkyReels-V3

  • 今天,昆仑万维 Skywork AI 团队宣布开源 SkyReels-V3 系列多模态视频生成模型。该系列模型覆盖参考图转视频、视频演唱和音频驱动虚拟形象三大核心能力,在单一架构中实现高保真多模态视频生成,达到了业内领先水平。
  • 用户只需要上传一张虚拟主播照片并配上音频,即可生成口型精准,表情生动的主播视频。上传几张素材图片,AI 就可以自动编排出一条完整的带货短片。还开源像专业导演一样,为视频设计切入切出正反打等电影级转场效果。
  • 另外,SkyReels-V3 属于完全开源,任何创作者都可以基于提供的工具搭建自己的虚拟 IP,甚至批量生产内容矩阵。近期 API 调用限时免费。

【世界模型】蚂蚁灵波开源 SOTA 级世界模型 LingBot-World

  • 今天,蚂蚁灵波开源了通用世界模型 LingBot-World。该模型支持在十分钟的时长内一直生成和一直交互,视觉效果已经和 Genie 3 不相上下,但是时间维度上明显更长。
  • 用户可以通过键盘和术毕奥实时控制视角的推进和旋转,就像在玩一款 3A 大作。另外,可以通过自然语言的方式去实时改变生成世界中的一切。
  • LingBot-World 在一致性方面也非常强大,同时还拥有强大的记忆力。

1月30日

【视频生成模型】超强视频生成模型 Vidu Q3 发布【重要】

  • 今天,生数科技正式发布了新一代视频生成模型 Vidu Q3。该模型在 Aritificial Analysis 的榜单中排名中国第一,全球第二,仅次于 xAI 的 Grok-imagine-video,超越了 Gen-4.5、Veo 3.1 和 Sora 2 Pro 等众多竞争对手。
  • Vidu Q3 的最大特点是全自动:可以一次性输出最高长达 16 秒的视频和音频,可以自由切换运镜和转场,可以使用文字和图片生成音视频,支持 1080P 清晰度(生成后可以提升至 4K),叙事能力完整且文字渲染精准。
  • Vidu Q3 支持中文、英语和日语等多种语言。

【世界模型】谷歌发布世界模型 Genie 3 原型 Project Genie

  • 今天,谷歌正式开放了世界模型 Genie 3 的实验性研究原型 Project Genie。该原型和 Genie 3 并不是完全一种形态,而更像是基于 Genie 3 的核心能力,结合 Nano Banana ProGemini 共同驱动的网页应用原型。
  • Project Genie 可以基于文字、图片等内容共生成世界;世界生成完成后,即可进入世界并自主调整视角;最后,还可以在已有世界的基础上进行修改。
  • Project Genie 的发布对游戏公司的市值产生了巨大的打击。在线游戏平台 Roblox 下跌超过 12%,游戏引擎制作商 Unity 的股价更是下跌了 21%。
Logo

脑启社区是一个专注类脑智能领域的开发者社区。欢迎加入社区,共建类脑智能生态。社区为开发者提供了丰富的开源类脑工具软件、类脑算法模型及数据集、类脑知识库、类脑技术培训课程以及类脑应用案例等资源。

更多推荐