现代计算机视觉深度学习算法的系统性技术评述

第1节 视觉识别的基础范式

本节解构了支撑视觉任务深度神经网络训练的核心架构创新,重点关注那些在现代架构中仍然至关重要的基本构建模块。

1.1 深度卷积网络:LeNet-5及Yann LeCun的贡献

由Yann LeCun等人提出的LeNet-5是卷积神经网络(CNN)历史上的一个开创性架构,最初设计用于手写字符识别 1。其结构由一系列卷积层、池化(子采样)层和全连接层组成,为现代CNN奠定了基础 1。

LeNet-5的技术核心在于其分层特征提取机制。卷积层(C1, C3, C5) 通过应用滤波器(或称核)来提取层次化特征。其关键概念是权重共享,即同一个滤波器在整个图像上进行卷积操作,这不仅保留了特征的空间关系,还与全连接网络相比,极大地减少了可训练参数的数量 2。紧随其后的是

子采样层或池化层(S2, S4),LeNet-5采用了平均池化来降低特征图的空间维度。这一操作不仅提供了对平移的一定程度的不变性,还减少了计算负荷,使模型对物体位置的微小变化不那么敏感 2。在激活函数的选择上,该架构使用了

tanh函数,这是在ReLU(Rectified Linear Unit)普及之前的一个常见选择 1。

LeNet系列架构的发展历程从1989年持续到1998年,其中LeNet-5是认知度最高的版本。早期的LeNet-1等原型机已成功将反向传播算法应用于如邮政编码识别等实际任务中 5。Yann LeCun的工作展示了通过基于梯度的学习(即反向传播)训练CNN的有效性,并确立了层次化特征提取、权重共享和池化等定义现代CNN的基本原则 4。

这些早期架构的演进反映了该领域核心挑战的变迁。LeNet-5的重点在于验证分层特征学习与权重共享的可行性,以管理参数数量,其核心挑战是创建一个能够学习空间特征的可训练模型 4。这一时期的进展为后续更复杂的网络设计铺平了道路,证明了通过深度分层结构自动学习视觉模式是可能的。

1.2 解决退化问题:残差网络(ResNet)与恒等映射(何恺明等人)

由何恺明(Kaiming He)等人提出的残差网络(ResNet)旨在解决深度学习中的一个核心难题:网络退化问题,即随着网络深度的增加,训练误差反而上升。ResNet的核心创新是其“深度残差学习”框架 7。

该框架的基础是残差块(Residual Blocks)。传统神经网络层试图直接学习一个目标映射H(x),而残差块中的层则被设计为学习一个残差函数F(x)=H(x)−x。原始的目标映射因此被重构为F(x)+x。这一设计通过“快捷连接”(shortcut connections)或“跳跃连接”(skip connections)实现,这些连接执行恒等映射,将块的输入x直接加到块内网络层的输出上 7。这种结构使得优化变得更加容易,因为如果恒等映射是最优的,网络只需将 F ( x ) F(x) F(x)的权重推向零即可。

2016年发表的论文《深度残差网络中的恒等映射》(Identity Mappings in Deep Residual Networks)进一步完善了这一概念。何恺明等人通过分析残差块中的信号传播动态,提出了一个新的残差单元。在该单元中,跳跃连接和加法后的激活函数均为恒等映射。这一改进使得信号(无论是前向传播还是反向传播的梯度)能够无障碍地从一个块传递到任何其他块,从而极大地简化了极深网络(例如1001层)的训练过程,并提升了模型的泛化能力 7。

ResNet架构的引入使得网络对权重初始化的敏感度降低,并允许成功训练比以往任何时候都深得多的网络。批量归一化(Batch Normalization)的结合进一步改善了深度ResNet中的反向传播效率 4。ResNet的原则至今仍在演进,例如,2025年的一篇论文提出的PURe-Net,建议在残差块中集成“乘积单元”而非求和神经元,以实现特征的乘法交互,在ImageNet和CIFAR-10等基准测试中展现了卓越的性能和效率 11。

从LeNet到ResNet的演变标志着研究焦点的转移,从证明学习的可行性转向实现网络的可扩展性。退化问题表明,简单地堆叠层数并不能保证性能提升;核心挑战转变为如何在极深的网络中有效传播梯度。何恺明的恒等映射正是针对这一信号传播问题的直接解决方案,它不是发明一种新的层类型,而是发明了一种连接现有层的新方式,从而突破了基本的优化障碍。

1.3 精确的像素级预测:U-Net架构及其对称结构

U-Net由Olaf Ronneberger等人为生物医学图像分割而开发,它为密集的、像素级的预测任务引入了一种高效的架构 12。该网络因其独特的对称结构而成为语义分割领域的基石。

U-Net的核心是其编码器-解码器结构。该架构由一个收缩路径(编码器)和一个扩张路径(解码器)组成,整体呈现出特有的U形 12。

  • 收缩路径(编码器):遵循典型的CNN结构,由重复的模块构成,每个模块包含两个3x3卷积层,其后跟随一个ReLU激活函数和一个步长为2的2x2最大池化操作。在每个下采样步骤中,特征通道的数量会加倍,从而在不断降低的空间分辨率下捕获更复杂的上下文信息 13。
  • 扩张路径(解码器):对称地对特征图进行上采样,使用2x2的“上卷积”(up-convolutions)将特征通道数量减半。该路径的目标是恢复空间分辨率,以实现精确定位 13

U-Net最关键的创新在于跳跃连接(Skip Connections) 的使用。这些长的跳跃连接将编码器中的特征图与解码器中相应上采样后的特征图进行拼接(concatenation)。这一机制允许解码器直接访问来自编码器的高分辨率特征,从而将高层语义的上下文信息与低层细粒度的空间细节相结合。这种信息融合对于生成精确的分割掩码至关重要 12。值得注意的是,由于收缩路径中使用了无填充卷积,会导致边界像素的丢失,因此在拼接前需要对编码器的特征图进行裁剪 13。

U-Net的出现解决了编码器-解码器结构中因下采样导致的空间信息损失问题。其跳跃连接并非主要用于梯度流动(如ResNet),而是为了实现信息的有效融合。这揭示了深度学习架构设计的又一个核心挑战:在学习深度抽象特征的同时,如何保留并利用进行精确定位所必需的原始空间信息。这一系列 foundational paradigms 的演进清晰地勾勒出计算机视觉领域解决问题的路径:从“我们能否学习特征?”(LeNet),到“我们能否深度地学习特征?”(ResNet),再到“我们能否在学习深度特征的同时保留定位信息?”(U-Net)。

第2节 目标检测架构

本节追溯了目标检测模型的演进,从多阶段、基于区域的方法,到单阶段、实时检测器,最终发展到现代的、基于Transformer的端到端范式。

2.1 基于区域的CNN家族:从R-CNN到Faster R-CNN(Ross Girshick等人)

目标检测领域的早期突破由Ross Girshick等人引领的R-CNN系列模型驱动,它们通过将分类任务应用于图像的特定区域来解决检测问题。

  • R-CNN:作为开创性工作,R-CNN引入了一个多阶段流程:1)使用如Selective Search之类的外部算法生成约2000个候选区域(region proposals);2)将每个候选区域缩放到固定尺寸,并输入到一个CNN(如AlexNet)中提取特征;3)最后,使用支持向量机(SVM)对特征进行分类,并用一个回归器精调边界框 14。其主要瓶颈在于极低的效率,因为CNN需要对每个候选区域独立进行前向传播计算,耗时巨大 15。
  • Fast R-CNN:为了解决R-CNN的计算冗余问题,Fast R-CNN做出了关键改进。它将整张图像一次性输入CNN,生成一个全局的特征图。然后,将候选区域投影到这个特征图上。一个新颖的“RoI池化”(RoI Pooling)层从每个投影区域中提取一个固定大小的特征向量,该向量随后被送入全连接层进行分类和边界框回归。这种共享计算的策略极大地提升了处理速度 14。
  • Faster R-CNN:尽管Fast R-CNN速度更快,但其性能瓶颈转移到了外部的候选区域生成算法上。Faster R-CNN通过引入区域提议网络(Region Proposal Network, RPN) 彻底解决了这个问题。RPN是一个小型的神经网络,它与主干CNN共享特征,并直接在特征图上预测候选区域。这使得整个检测流程成为一个单一、统一的网络,可以进行端到端的训练,从而进一步提升了速度和精度 14。
  • Mask R-CNN:由何恺明等人提出的Mask R-CNN是Faster R-CNN在实例分割任务上的扩展。它在原有架构基础上增加了一个并行的分支,用于为每个RoI预测一个二值的分割掩码。其关键创新之一是RoIAlign层,它取代了RoI Pooling。RoIAlign通过双线性插值避免了RoI Pooling中的硬性量化操作,从而保留了精确的像素级空间信息,这对于生成高质量的分割掩码至关重要 8。

2.2 实时检测:YOLO框架及其向YOLOv10的演进

与R-CNN系列的多阶段方法不同,YOLO(You Only Look Once)框架以其革命性的单阶段设计,为实时目标检测设定了新的标准。

  • 核心YOLO概念:由Joseph Redmon等人提出的YOLO将目标检测重新定义为一个单一的回归问题,在一次前向传播中直接从完整图像中预测边界框和类别概率 18。它将输入图像划分为一个
    S×S的网格,每个网格单元负责预测其中心点落入该单元内的目标 9。这种单阶段(single-shot)方法使得YOLO非常快速,能够满足实时应用的需求 19。
  • 技术组件:YOLO框架的关键技术组件包括:
    • 边界框回归:每个网格单元预测多个边界框及其置信度。预测值通常包括置信度分数pc​(表示网格包含目标的概率)以及边界框的中心坐标 ( b _ x , b _ y ) 、高度 b _ h 和宽度 b _ w (b\_x, b\_y)、高度b\_h和宽度b\_w (b_x,b_y)、高度b_h和宽度b_w 9。
    • 置信度分数与交并比(IoU):置信度分数反映了模型对框内存在目标的确信度以及预测框的准确度。交并比(Intersection over Union, IoU)是评估预测框与真实框重叠程度的标准度量,用于训练和后处理 9。
    • 非极大值抑制(NMS):作为后处理步骤,NMS用于消除对同一目标的冗余检测框,只保留置信度最高的那个 18。
  • 演进路径:YOLO经历了多次迭代(从YOLOv2到YOLOv9),每次迭代都引入了新的改进,如锚框(anchor boxes)、更强大的主干网络(如Darknet)、先进的数据增强和训练策略 18。早期版本在检测小物体和非常规长宽比的物体方面存在困难 9。
  • YOLOv10 (2024):由清华大学研究人员推出的最新版本,旨在进一步推动性能与效率的边界。其核心创新之一是为实现无NMS训练而提出的一致性双重分配策略。通过在训练中使用双重标签分配和一致的匹配度量,模型能够在训练期间获得丰富且协调的监督信号,同时在推理时无需NMS后处理,从而消除了这一传统瓶颈,使模型成为真正的端到端检测器,并进一步提升了推理速度。此外,YOLOv10还引入了整体的效率-准确性驱动模型设计策略,例如轻量化的分类头和秩引导的块设计,以减少计算冗余 19。在COCO基准测试上,YOLOv10-S在达到与RT-DETR-R18相似的平均精度(AP)的同时,速度快了1.8倍 20。

2.3 将检测视为集合预测:DETR范式与Co-DETR协同训练方案

DETR(DEtection TRansformer)的出现再次颠覆了目标检测领域,它引入了基于Transformer的全新范式,将检测视为一个集合预测问题。

  • DETR:DETR通过使用Transformer架构,完全移除了传统检测器中手工设计的组件,如NMS和锚框 23。其流程为:首先使用CNN主干网络提取图像特征,然后将这些特征输入到一个标准的Transformer编码器-解码器中。解码器接收一小组固定的、可学习的
    对象查询(object queries) 作为输入,并并行输出最终的预测集合(每个预测包含类别和边界框坐标)24。模型通过一个基于集合的全局损失函数进行端到端训练,该损失函数通过
    二分图匹配(bipartite matching)强制模型做出唯一的预测,从而自然地避免了重复检测 23。
  • Co-DETR (2023):DETR的一个主要局限是其收敛速度慢,这源于匈牙利算法中的一对一匹配导致的监督信号稀疏。由Zhaoyang等人提出的Co-DETR通过一种“协同混合分配训练方案”解决了这个问题 25。它在训练阶段引入了并行的
    辅助头(例如基于Faster R-CNN或ATSS的检测头),这些辅助头采用一对多的标签分配策略。这为编码器提供了更丰富、更密集的监督信号,迫使其学习更具判别力的特征。这些辅助头在推理时被丢弃,因此不会增加任何计算开销。这种协同训练显著提升了性能和收敛速度,使得Co-DETR模型在COCO等基准上取得了最先进的结果 25。

整个目标检测领域的演进史,可以被看作是一场对手工启发式组件的持续消除。R-CNN始于三个独立的、需要手动调优的模块:用于提议的Selective Search、用于特征的CNN和用于分类的SVM 15。Faster R-CNN用可学习的RPN取代了启发式的提议机制 14。YOLO完全摒弃了提议阶段,但仍依赖NMS这一启发式后处理步骤 18。DETR通过将检测问题框架化为集合预测与二分图匹配,首次消除了NMS 23。最终,YOLOv10在单阶段架构中实现了无NMS的训练,这表明该领域正趋向于一个共同的理想:一个从输入像素到最终边界框的、完全可微分的单一网络 20。

与此同时,CNN与Transformer之间的辩证关系正在塑造现代检测器。最初,检测器是纯CNN的(R-CNN, YOLO)。DETR引入了一种混合方法,使用CNN主干提取特征,并使用Transformer来推理对象间的关系和执行集合预测 23。这种混合模型展示了Transformer自注意力机制所提供的全局上下文的强大能力,这是CNN难以高效捕捉的。然而,DETR的训练效率低下。Co-DETR通过重新引入基于CNN的检测头(如Faster R-CNN的头)作为辅助训练器,利用CNN世界原生的密集监督概念来帮助Transformer更好地学习,从而改进了这一点 25。更新的模型如YOLOv10,现在正在其基于CNN的主干中融入受Transformer启发的组件,如部分自注意力,以增强其能力 22。这展示了一种融合:Transformer的全局推理能力正被整合到CNN高效、具备空间感知能力的特征提取中,催生了一类强大的新型混合架构。

下表对几种现代目标检测器进行了定量比较,以具体性能指标总结了不同架构哲学的权衡。

表2.1:现代目标检测器对比分析

模型 主干网络 mAP (COCO val) FPS 参数量 (M) 关键创新
Faster R-CNN 15 ResNet-50-FPN ~42.0 ~11 ~42 引入区域提议网络(RPN)实现端到端检测

| YOLOv10-L 20 | YOLOv10-L | 54.6 | ~110 | 53.3 | 无NMS的端到端实时检测,一致性双重分配 |

| Co-DETR (DINO) 25 | Swin-L | 64.5 | ~8 | ~250 | 协同混合分配训练方案,利用辅助头提供密集监督 |

第3节 视觉领域的Transformer革命

本节详细阐述了从以CNN为主导的计算机视觉到应用Transformer架构的范式转变,后者将图像视为块序列进行处理。

3.1 视觉Transformer(ViT):一张图像胜过16x16个单词

由Dosovitskiy等人在2021年提出的Vision Transformer(ViT)直接将标准的Transformer编码器应用于图像分类任务,对CNN的主导地位发起了挑战 29。这一工作标志着一个重要的范式转变。

  • 核心机制:ViT的核心思想是将图像处理问题转化为序列处理问题,从而利用Transformer架构的强大能力。
    • 图像分块(Image Patching):输入图像被分割成一系列固定大小、不重叠的图像块(例如,16x16像素)。每个图像块随后被展平为一个向量 32。
    • 块嵌入与位置嵌入(Patch & Position Embeddings):一个可训练的线性投影层将每个展平的图像块向量映射到一个D维的嵌入空间,形成块嵌入。为了保留图像块在原始图像中的空间信息,模型会为每个块嵌入添加一个可学习的一维位置嵌入。此外,一个特殊的可学习的[class]标记被添加到序列的开头,其在Transformer编码器输出端的最终表示被用作整个图像的分类表示 30。
    • Transformer编码器:最终的向量序列(块嵌入+位置嵌入)被送入一个标准的Transformer编码器。该编码器由交替的多头自注意力(Multi-Head Self-Attention, MHSA)层和多层感知机(MLP)块组成。MHSA层允许模型在表示任意一个图像块时,权衡所有其他图像块的重要性,从而使其能够从最底层就开始学习全局关系 32。
  • 归纳偏置(Inductive Bias):与CNN相比,ViT缺乏强大的图像特有归纳偏置,如局部性(locality)和翻译等变性(translation equivariance)。这意味着,在没有大量正则化的情况下,ViT在像ImageNet这样的中等规模数据集上训练时,泛化能力不佳。然而,当在极大规模的数据集(如JFT-300M)上进行预训练时,ViT能够从数据中学习到这些必要的模式,其性能可以达到甚至超过最先进的CNN,而且通常需要更少的计算资源进行训练 29。

ViT的成功揭示了一个新的范式:当数据规模足够大时,一个更通用、偏置更少的架构(Transformer)可以从零开始学习必要的模式,其性能甚至优于那些具有内建先验知识的架构。这表明,模型的“智能”可以源自数据本身,而非仅仅硬编码在架构中。这一发现具有深远的影响,暗示未来的进步可能更多地依赖于数据和计算的扩展,而不是发明更巧妙的架构偏置。

3.2 视觉Transformer的架构分析与扩展

ViT的出现催生了大量后续研究,探索其扩展性、效率和在其他视觉任务中的应用。

  • 扩展法则(Scaling Laws):后续研究表明,ViT展现出与大型语言模型(LLM)相似的强大扩展特性。论文《将视觉Transformer扩展至220亿参数》(Scaling Vision Transformers to 22 Billion Parameters)(Dehghani et al., 2023) 表明,随着模型尺寸的增加,其在下游任务上的性能持续提升。这个ViT-22B模型不仅在准确性上获益,还在公平性-性能权衡以及与人类视觉感知的对齐方面表现出改进 33。
  • 架构优化:将ViT扩展到如此大的规模需要对架构进行修改以保证训练的稳定性和效率,例如采用并行层和查询/键归一化(query/key normalization)等技术 33。
  • ViT在生成模型中的应用:ViT架构在生成模型领域也显示出其有效性。《DiffiT: 用于图像生成的扩散视觉Transformer》(DiffiT: Diffusion Vision Transformers for Image Generation)(Hatamizadeh et al., 2023) 这篇论文中,研究者用ViT取代了扩散模型中常用的U-Net主干网络,在ImageNet上实现了最先进的FID分数,并且比其他基于Transformer的扩散模型具有更高的参数效率 34。

Transformer架构的适应性正在AI领域创造一种“大一统”的趋势。Transformer诞生于自然语言处理(NLP)领域。ViT通过将图像“标记化”(tokenize)为图像块,成功地将其应用于视觉领域 30。我们在其他部分也看到了同样的模式:DETR将其用于目标检测 23,扩散模型现在也开始使用ViT作为主干网络 34,而视觉语言模型(VLM)则使用Transformer来处理文本和图像两种模态的标记。这表明,Transformer是一种非常通用的、用于学习序列数据的架构。当前的核心挑战不再是设计一个领域特定的网络,而是为给定的模态(图像、文本、音频等)找到一种有效的“标记化”方法,将其转换为Transformer可以处理的序列。这正导致不同AI子领域在架构上的趋同,而Transformer则是其核心。

第4节 生成式时代:从对抗性学习到扩散模型

本节探讨了旨在合成新数据样本的生成模型的演进,从GAN的竞争动态到扩散模型更稳定、迭代式的精炼过程。

4.1 生成对抗网络(GANs):Ian Goodfellow的开创性工作

由Ian Goodfellow等人在2014年提出的生成对抗网络(GAN)由两个神经网络构成:一个生成器(Generator, G) 和一个判别器(Discriminator, D),两者被锁定在一个对抗性的零和博弈中 35。

  • 核心架构

    • 生成器(G):接收来自潜在空间的随机噪声z作为输入,并试图生成与真实数据无法区分的数据样本G(z) 35。
    • 判别器(D):一个二元分类器,接收真实数据x和生成数据 G ( z ) G(z) G(z)作为输入,并试图区分它们,输出一个表示输入为真实数据的概率 35。
  • 对抗性训练:GAN的训练过程是一个极小极大博弈(minimax game)。生成器G的目标是最大化判别器D犯错的概率,而判别器D的目标是最小化这个错误。其目标函数可以表示为:
    Gmin​Dmax​V(D,G)=Ex∼pdata​(x)​+Ez∼pz​(z)​

    理论上,当生成器G捕获了真实数据分布,且判别器D对任何输入的输出均为0.5时,这个博弈达到纳什均衡 36。Goodfellow的深刻洞见在于,判别器为生成器提供了一个可学习的、自适应的损失函数,从而引导其生成更高质量的样本 40。

  • 影响与演进:GAN彻底改变了生成模型领域,能够产生高度逼真的图像 41。其关键变体包括引入CNN以提高稳定性的
    DCGAN,以及允许根据条件输入(如类别标签)生成特定数据的条件GAN(CGAN) 38。

4.2 去噪扩散概率模型(DDPMs):高保真合成的新前沿

去噪扩散概率模型(DDPMs),由Ho等人在2020年推广,是一类受非平衡热力学启发的生成模型 42。它们通过学习逆转一个渐进的加噪过程来生成数据。

  • 核心机制
    • 前向过程(扩散):这是一个固定的马尔可夫链,它在T个时间步内逐渐向一个数据样本x0​添加高斯噪声,产生一系列越来越嘈杂的潜变量x1​,…,xT​。经过T步后,xT​近似于一个各向同性的高斯分布。这个过程可以表示为q(xt​∣xt−1​):=N(xt​;1−βt​​xt−1​,βt​I),其中 b e t a _ t \\beta\_t beta_t是预设的方差表 42。
    • 反向过程(去噪):这是一个学习的马尔可夫链,通常由一个神经网络(常用U-Net架构)参数化,旨在逆转扩散过程。它从随机噪声xT​开始,在每个时间步t迭代地去噪,最终生成一个清晰的样本x0​。网络被训练来预测在每一步中添加的噪声 e p s i l o n \\epsilon epsilon,其损失函数通常是真实噪声和预测噪声之间的均方误差 42。
  • 优势:与GAN相比,DDPMs的训练通常更加稳定,并且在图像合成方面取得了最先进的成果,其在CIFAR10和LSUN等数据集上的FID分数可与顶级GAN相媲美甚至超越 42。它们还自然地支持渐进式生成过程。

生成模型的演进反映了在控制性稳定性之间的权衡。GAN提供了前所未有的样本质量,但由于不稳定的极小极大优化(例如模式崩溃),训练起来非常困难 35。DDPMs通过用一个更简单、定义明确的目标——去噪——取代复杂的双人博弈,成为一个更稳定的替代方案 42。然而,早期的DDPMs缺乏条件GAN那样的直接可控性。

4.3 可控生成与任务特定扩散模型:ControlNet与DiffusionDet

随着扩散模型的发展,研究重点转向了如何精确控制生成过程以及如何将其应用于特定任务。

  • ControlNet (2023):由Zhang等人提出的ControlNet是一个突破性的架构,它为大型预训练的文生图扩散模型(如Stable Diffusion)增加了空间条件控制 46。其工作原理是:锁定原始扩散模型的参数,创建一个可训练的编码层副本,并用“零卷积”(zero convolutions,即权重初始化为零的卷积层)将两者连接起来。这使得模型能够在新的空间条件(如Canny边缘、人体姿态、深度图)上进行微调,而不会忘记原始模型中蕴含的庞大知识 46。这为用户提供了对图像生成的精确控制,是稳定性和可控性结合的典范 49。
  • DiffusionDet (2023):由Chen等人提出的该框架将目标检测任务重新表述为一个去噪扩散过程 48。它生成的不是像素,而是
    边界框。在训练阶段,真实的边界框被扩散到一个随机噪声分布,模型学习逆转这个过程。在推理阶段,模型从一组随机生成的框开始,通过迭代精炼得到最终的预测结果 51。这种方法提供了极大的灵活性,例如可以使用动态数量的框,并在零样本迁移等场景下表现出色 51。最近的扩展如RGBX-DiffusionDet已将其应用于多模态数据 54。

这些进展标志着生成模型正从纯粹的“合成器”演变为“问题解决器”。最初,生成模型的目标是合成逼真的图像、文本等 35。然而,DiffusionDet展示了这一范式的深刻转变 51。它利用去噪的生成过程,不是为了创造图像,而是为了

解决一个感知任务(目标检测)。它将“寻找物体”重新定义为“从噪声中生成正确的边界框集合”。这一概念上的飞跃意味着,强大的生成模型机制可以被重新用于解决各种判别和预测任务,这可能催生出在同一框架内同时执行生成和感知的统一模型,这是未来的一个关键主题。

第5节 迈向通用分割:现代基础模型

本节探讨了近期构建大规模、通用“基础模型”用于视觉任务的趋势,重点关注图像分割。这些模型正在摆脱传统的一个模型对应一个任务的范式。

5.1 OneFormer:一个统一处理全景、实例和语义任务的Transformer

OneFormer由Jitesh Jain等人提出,是一个通用的图像分割框架,其设计目标是仅需训练一次,便能在全景分割、实例分割和语义分割三个任务上同时达到最先进的性能 55。

  • 核心思想:OneFormer通过一个多任务的“一次性训练”设计来统一图像分割。其关键创新在于任务条件化架构。它使用单一的Transformer架构,并通过一个“任务令牌”(task token)来告知模型当前需要执行的任务类型。在多任务联合训练过程中,所有三种任务的真值标签都从单一的全景标注中派生出来,模型接收一个类似“任务是{全景/实例/语义}”的文本提示作为输入 56。这使得单个模型能够学习并区分每个任务领域的细微差别。
  • 训练与性能:OneFormer采用基于查询的掩码分类范式,并引入了查询-文本对比损失,以帮助模型学习任务间的差异。实验表明,一个在单一数据集上训练的OneFormer模型,其性能优于那些在三个任务上分别独立训练的专用模型(如Mask2Former),同时消耗的资源显著减少 55。

5.2 Segment Anything Model (SAM):可提示的零样本泛化

由Meta AI的Kirillov等人推出的Segment Anything Model(SAM)是一个分割基础模型,它引入了“可提示分割”(promptable segmentation)这一新任务,彻底改变了分割领域的格局 48。

  • 核心思想:SAM的设计目标是,给定任何提示,都能为图像中的任何物体生成一个有效的分割掩码。
  • 可提示分割:模型可以通过点、框或文本等多种形式的提示来识别需要分割的对象。这种灵活的交互接口使其能够在测试时泛化到新的对象和图像分布,而无需额外的训练,即零样本泛化 59。
  • 架构与数据引擎:SAM的强大能力源于其高效的架构(一个图像编码器、一个灵活的提示编码器和一个快速的掩码解码器),但更关键的是其背后庞大的SA-1B数据集。该数据集包含11亿个高质量掩码,是通过模型在一个数据引擎闭环中辅助收集和标注的。
  • 影响与扩展:SAM已成为众多下游任务的核心组件。研究界正积极将其能力扩展到新的模态和任务中,例如结合辐射场进行3D分割(SA3D)61、通过点追踪进行视频分割(SAM-PT)60,以及处理多模态数据(MM-SAM)59。UncertainSAM等工作则致力于量化其预测的不确定性 62。

视觉领域的“基础模型”范式是NLP革命的直接延续。单个大规模预训练模型适应多种下游任务的概念,在NLP中由BERT和GPT等模型推广开来。OneFormer和SAM代表了这一范式向计算机视觉的成功迁移。OneFormer使用任务条件的文本提示 57,这与LLM如何被提示执行不同任务的方式直接类似。SAM的“可提示”界面 60 则更明确地模仿了像GPT-4这样的模型的交互式、零样本特性。这表明了领域之间深层次的概念趋同,其中预训练、规模化和提示化正成为构建智能的、与模态无关的原则。

同时,研究焦点正从“分割什么”转向“如何分割”。传统的分割模型旨在回答“这张图片里有什么?”,通过为每个像素分配一个类别标签(如“道路”、“天空”)来实现 63。而像SAM这样的模型则旨在回答“我应该如何分割由这个提示所指示的对象?”48。这是一个从

分类问题交互式接地问题的根本性转变。模型不再仅仅是一个被动的标注器,而是一个交互式工具。这对应用产生了巨大影响,从自动化分析转向人机协同系统,用于数据标注、创意编辑和科学分析。SA3D 61 和SAM-PT 60 等扩展的开发进一步强化了这一趋势,表明核心的“可提示分割引擎”可以被集成到更复杂、更具交互性的工作流中。

第6节 视觉与语言的融合:深入剖析VLM

本节对视觉语言模型(Vision-Language Models, VLM)进行全面的技术回顾。VLM旨在整合视觉和文本理解,是当前人工智能研究中最活跃和最具影响力的领域之一。

6.1 学习多模态嵌入:CLIP对比式预训练方法

由OpenAI提出的CLIP(Contrastive Language-Image Pre-training)模型通过自然语言监督直接学习视觉表征,为VLM的发展奠定了基础 64。

  • 技术原理:CLIP联合训练一个图像编码器(如ViT或ResNet)和一个文本编码器,以创建一个共享的多模态嵌入空间 65。
  • 对比式目标函数:在一个包含4亿图文对的大规模数据集上进行预训练时,模型的目标是在一个批次内,最大化正确的(图像,文本)对的嵌入向量之间的余弦相似度,同时最小化所有不正确配对的相似度。这一目标通过一个对称的交叉熵损失函数进行优化 65。
  • 零样本能力:这种预训练方法赋予了模型强大的零样本分类能力。要对一张图像进行分类,只需为每个类别创建文本提示(例如,“一张狗的照片”),用文本编码器将其嵌入,然后找出哪个文本嵌入与图像嵌入的余弦相似度最高即可 64。这种方法非常高效且具有很强的泛化性 66。

6.2 借助大型语言模型:BLIP与LLaVA的引导方法

随着大型语言模型(LLM)的兴起,VLM的构建范式发生了转变,从头开始训练的模式逐渐被利用现有LLM强大能力的方法所取代。

  • BLIP (Bootstrapping Language-Image Pre-training):由Salesforce Research提出,BLIP通过“引导式字幕生成”(bootstrapping captions)来有效利用嘈杂的网络数据。它包含一个字幕生成器(captioner)来生成合成字幕,以及一个过滤器(filter)来移除噪声,从而提升训练数据的质量。其架构统一了理解与生成任务 67。
  • BLIP-2:其后续版本引入了一种更高效的预训练策略。它保持一个大型的预训练图像编码器(如ViT)和一个大型语言模型(LLM)的参数冻结。然后,它训练一个轻量级的“查询Transformer”(Querying Transformer, Q-Former)来弥合两者之间的模态鸿沟 68。Q-Former充当一个信息瓶颈,提取最相关的视觉特征,并将其作为“软视觉提示”输入给冻结的LLM。这种方法参数效率极高,在只训练极少部分参数的情况下便取得了最先进的成果 68。
  • LLaVA (Large Language and Vision Assistant):LLaVA将这一思想推向了新的高度。它通过一个简单的投影矩阵将一个预训练的视觉编码器(CLIP的ViT)连接到一个预训练的LLM(Vicuna)。其核心创新在于数据生成:它利用强大的纯语言模型GPT-4来生成多模态的指令遵循数据。通过在这种高质量、基于指令的数据上进行微调,LLaVA获得了令人印象深刻的多模态对话能力,在行为上模仿了GPT-4 70。

6.3 顶尖系统分析:GPT-4V与开源对应模型

  • GPT-4V(ision):根据其系统卡片,GPT-4V是一个在海量文本和图像数据上训练的、用于预测下一个词的大型多模态模型,随后通过RLHF(Reinforcement Learning from Human Feedback)进行微调 73。其能力包括通用的图像描述、高级科学理解(如阅读论文中的图表)和光学字符识别(OCR)。OpenAI为其部署了重要的安全缓解措施,例如拒绝识别个人身份或提供医疗诊断,这凸显了在顶尖模型中能力与安全并存的挑战 73。
  • 开源生态(2024-2025年):开源社区涌现出大量VLM,其中许多遵循LLaVA/BLIP-2的架构模式,即将一个视觉编码器连接到一个LLM。2024至2025年的多篇综述 74 列举了众多模型,如LLaVA-1.5、InternVL和Qwen-VL,它们通常使用基于CLIP的视觉编码器和如Vicuna或LLaMA等LLM。在开放数据和架构的驱动下,这些模型正迅速缩小与专有系统之间的差距。

VLM代表了从“从标签中学习”到“从世界中学习”的范式转变。传统计算机视觉模型在带有离散标签的策划数据集上训练。CLIP则通过从嘈杂、网络规模的图文对中学习,迈出了重要一步,这是一种更自然、更丰富的监督形式 65。像BLIP-2和LLaVA这样的模型,通过直接与LLM交互,将这一理念推向了逻辑的终点,因为LLM本身就是在海量人类文本语料库上训练的 68。这意味着VLM不仅在学习将像素映射到标签,更是在学习将视觉信息与根植于人类语言中的丰富、概念性和关系性的知识联系起来。

6.4 2024-2025年VLM格局:近期架构与对齐方法综述

VLM架构正趋向于一种“中心辐射”(Hub-and-Spoke)模型。LLM正成为智能和推理的中心“枢纽”,而视觉则被视为一个“辐射”——一种需要被翻译成LLM“思想语言”的输入模态。BLIP-2的Q-Former 68 和LLaVA的简单投影层 71 的工作都例证了这一点。主要的工程挑战不再是构建一个单一的、巨大的多模态大脑,而是构建高效、有效的“适配器”,将新的模态(视觉、音频等)接入一个强大的、预先存在的语言枢纽。

  • 架构趋势:近期的综述 39 证实,主流趋势是利用预训练的、冻结的LLM。架构上的主要差异在于视觉编码器和LLM之间的“连接器”模块,从简单的线性投影(LLaVA)到更复杂的交叉注意机制或专用模块如Q-Former(BLIP-2)。此外,向仅解码器(decoder-only)架构的转变也值得注意,这简化了模型结构 75。
  • 对齐方法:随着VLM能力的增强,使其与人类意图对齐变得至关重要。RLHF正在被应用于多模态场景。新的对齐方法如DPO(Direct Preference Optimization)和RLOO也开始在VLM中出现,正如2025年的综述表格所记录的那样 75。
  • 关键挑战幻觉(生成与图像内容相悖的文本)仍然是一个主要挑战 75。其他关键研究领域包括:提升模型效率以便在边缘设备上部署 76;增强视觉算术和推理能力 79;以及开发更好的评估基准 75。
  • 迁移学习:一篇2024年的VLM迁移学习综述将方法分为:基于提示的(视觉/文本提示微调)、基于参数的(适配器、LoRA)和基于特征的(缓存),以高效地将VLM适应于新任务和新领域 80。

VLM研究的前沿正从架构转向数据和对齐。LLaVA的成功表明,一个简单的架构如果能在高质量的指令式数据上训练,也能取得卓越成果 70。这表明,“数据工程”(例如,利用GPT-4生成指令数据)现在与“架构工程”同等重要,甚至更为重要。

下表根据一篇2025年的综合性综述 75,对最先进的视觉语言模型进行了结构化、按时间顺序的概述。

表6.1:最先进的视觉语言模型概览(2021-2025年)

模型 年份 架构 视觉编码器/分词器 LLM主干 参数量
CLIP 75 2021 编码器-解码器 ViT / ResNet 从零开始预训练 63M-355M

| BLIP-2 75 | 2023 | 编码器-解码器 | ViT-B/L/g | OPT / FlanT5 | 223M-400M |

| GPT-4V 75 | 2023 | 仅解码器 | 未公开 | 未公开 | 未公开 |

| LLaVA-1.5 75 | 2023 | 仅解码器 | CLIP ViT-L/14 | Vicuna | 13B |

| InstructBLIP 75 | 2023 | 编码器-解码器 | ViT | Flan-T5 / Vicuna | 13B |

| InternVL 75 | 2023 | 编码器-解码器 | Eva CLIP ViT-g | QLLaMA | 7B/20B |

| Claude 3 75 | 2024 | 仅解码器 | 未公开 | 未公开 | 未公开 |

| Qwen2-VL 75 | 2024 | 仅解码器 | EVA-CLIP ViT-L | Qwen-2 | 7B-14B |

| LLaMA 3.2 vision 75 | 2024 | 仅解码器 | CLIP | LLaMA-3.1 | 11B-90B |

| DeepSeek-VL2 75 | 2024 | 仅解码器 | SigLIP / SAMB | DeepSeekMoE | 4.5B x 74 |

| QWen2.5-VL 75 | 2025 | 仅解码器 | 重新设计的ViT | Qwen2.5 | 3B/7B/72B |

| LLaMA 4 75 | 2025 | 仅解码器 | - | LLaMA 4 MoE | 17B |

第7节 视觉AI的未来轨迹

本节综合了最新会议论文和综述报告的发现,勾勒出该领域最显著的未来发展方向。

7.1 理解与生成的统一:自回归视觉模型

一个显著的新兴趋势是视觉任务的统一。该领域正在从为分类、检测、生成等任务分别设计模型,转向构建单一的、通用的模型。一篇2024年的综述文章指出,驱动LLM成功的“下一个标记预测”范式——自回归(Autoregression),是实现这一统一的关键 82。

其核心方法论是将图像(以及文本、边界框等其他模态)标记化(tokenize)为一个统一的序列,然后训练一个大型Transformer以自回归的方式预测下一个标记。这种简单且可扩展的目标函数可以涵盖理解任务(如预测类别标记)和生成任务(如预测像素标记)82。这代表了Transformer范式在视觉领域的终极延伸,旨在构建一个能够处理所有视觉任务的单一模型。

7.2 第三维度:NeRF与高斯溅射的进展

2024年见证了3D视觉领域的爆炸式增长,研究焦点从2D图像扩展到完整的3D场景重建和新视角合成 83。

  • NeRF (Neural Radiance Fields):将场景表示为一个连续的隐式函数(一个MLP),该函数将3D坐标和观察方向映射到颜色和密度。尽管NeRF能产生照片般逼真的结果,但其计算成本高昂,训练和渲染速度缓慢 83。
  • 3D高斯溅射 (3D Gaussian Splatting, 3DGS):作为一项更新的技术(2023年),3DGS迅速崭露头角。它将场景显式地表示为一组3D高斯分布的集合。3DGS在提供与NeRF相媲美的渲染质量的同时,训练速度显著加快,并能实现实时渲染 83。这种效率优势使其在2024年成为主导方法,通过在模拟和虚拟化身创建等领域的应用改变了多个行业 83。
  • 3D视觉的未来趋势:当前的研究重点在于将这些方法扩展到更大规模的场景,提高保真度,减少内存消耗,并将其与生成模型结合,以实现文生3D(如Zero-1-to-3 87)和物理感知的模拟 89。

7.3 对效率的追求:面向边缘部署的紧凑型VLM

随着基础模型和VLM的参数量增长到数十亿级别,将它们部署到资源受限的设备(如手机、机器人)上成为一个重大挑战 76。

  • 研究方向:一篇2025年关于高效VLM的综述重点介绍了关键的优化技术 77。这些技术包括:
    • 部署前技术:通过知识蒸馏、剪枝和量化来创建更小的模型。
    • 高效微调:采用参数高效微调(PEFT)方法,如LoRA和适配器,仅更新模型参数的一小部分 81。
    • 运行时优化:针对边缘硬件进行推理优化。
  • 影响:这项研究对于实现实时的、保护隐私的AI应用至关重要,这些应用可以在没有持续网络连接的情况下运行,例如在自主导航和智能物联网中 92。像MobileVLM这样的模型正在开创这一领域 76。

这些不同的发展趋势并非孤立,而是正在汇聚成一个宏伟的目标:构建一个“世界模型”或“世界模拟器” 89。理解与生成的统一 82 提供了架构的支柱。向3D和4D(视频)的迈进,借助NeRF和3DGS等方法,提供了必要的空间和时间基础 83。通过VLM与语言的整合,提供了语义和推理层 75。最后,对效率的追求将使这些模型能够部署在能够与物理世界互动的具身智能体(机器人、自动驾驶汽车)中 76。在2024年的主要会议(如CVPR、ECCV)上,主题演讲反复指向这一未来,内容涵盖具身智能、AI虚拟化身以及让AI系统在物理世界中更具价值等 93。

在经历了一段“颠覆性创新”时期后,该领域正在进入一个“整合与部署”的阶段。过去几年见证了一系列颠覆性创新:用于视觉的Transformer、扩散模型和大规模VLM。当前的趋势表明研究焦点正在发生微妙的转变。虽然基础研究仍在继续,但大量的努力正投入到对这些突破性成果的整合上。统一化的趋势 82 是关于将不同任务整合到一个模型中。3D视觉的趋势 83 是关于将2D视图整合为一个连贯的3D表示。效率的趋势 77 则是关于将庞大的模型整合为可部署的工件。这表明该领域正在走向成熟,2020年代初期的革命性思想现在正在被提炼、扩展和工程化,以期在现实世界中产生实际影响。

引用的著作
  1. LeNet-5: A Simple Yet Powerful CNN for Image Classification, 访问时间为 六月 25, 2025, https://paravisionlab.co.in/lenet-5-architecture/
  2. LeNet-5 Architecture - GeeksforGeeks, 访问时间为 六月 25, 2025, https://www.geeksforgeeks.org/computer-vision/lenet-5-architecture/
  3. The Architecture of Lenet-5 - Analytics Vidhya, 访问时间为 六月 25, 2025, https://www.analyticsvidhya.com/blog/2021/03/the-architecture-of-lenet-5/
  4. The History of Convolutional Neural Networks for Image Classification (1989- Today), 访问时间为 六月 25, 2025, https://towardsdatascience.com/the-history-of-convolutional-neural-networks-for-image-classification-1989-today-5ea8a5c5fe20/
  5. LeNet - Wikipedia, 访问时间为 六月 25, 2025, https://en.wikipedia.org/wiki/LeNet
  6. In 1993, at the age of 32, Yann LeCun demonstrated the world’s first convolutional neural network (CNN) for handwritten digit recognition while working at AT&T Bell Laboratories in 1989. - Reddit, 访问时间为 六月 25, 2025, https://www.reddit.com/r/STEW_ScTecEngWorld/comments/1hzbbn1/in_1993_at_the_age_of_32_yann_lecun_demonstrated/
  7. Identity Mappings in Deep Residual Networks, 访问时间为 六月 25, 2025, https://arxiv.org/abs/1603.05027
  8. Mask R-CNN | Papers With Code, 访问时间为 六月 25, 2025, https://paperswithcode.com/paper/mask-r-cnn
  9. YOLO Object Detection Explained: A Beginner’s Guide | DataCamp, 访问时间为 六月 25, 2025, https://www.datacamp.com/blog/yolo-object-detection-explained
  10. [1709.02956] Deep Residual Networks and Weight Initialization - arXiv, 访问时间为 六月 25, 2025, https://arxiv.org/abs/1709.02956
  11. [2505.04397] Deep residual learning with product units - arXiv, 访问时间为 六月 25, 2025, https://arxiv.org/abs/2505.04397
  12. U-Net - Wikipedia, 访问时间为 六月 25, 2025, https://en.wikipedia.org/wiki/U-Net
  13. U-Net Explained | Papers With Code, 访问时间为 六月 25, 2025, https://paperswithcode.com/method/u-net
  14. Getting Started with R-CNN, Fast R-CNN, and Faster R-CNN - MATLAB & - MathWorks, 访问时间为 六月 25, 2025, https://www.mathworks.com/help/vision/ug/getting-started-with-r-cnn-fast-r-cnn-and-faster-r-cnn.html
  15. R-CNN vs Fast R-CNN vs Faster R-CNN | ML - GeeksforGeeks, 访问时间为 六月 25, 2025, https://www.geeksforgeeks.org/r-cnn-vs-fast-r-cnn-vs-faster-r-cnn-ml/
  16. How Mask R-CNN Works? | ArcGIS API for Python - Esri Developer, 访问时间为 六月 25, 2025, https://developers.arcgis.com/python/latest/guide/how-maskrcnn-works/
  17. Mask R-CNN | ML - GeeksforGeeks, 访问时间为 六月 25, 2025, https://www.geeksforgeeks.org/mask-r-cnn-ml/
  18. YOLO Algorithm for Object Detection Explained [+Examples] - V7 Labs, 访问时间为 六月 25, 2025, https://www.v7labs.com/blog/yolo-object-detection
  19. Object Detection Models: Comparing YOLOv10, DETR, and Top …, 访问时间为 六月 25, 2025, https://www.dfrobot.com/blog-13914.html
  20. YOLOv10: Real-Time End-to-End Object Detection - arXiv, 访问时间为 六月 25, 2025, https://arxiv.org/pdf/2405.14458
  21. YOLOv10: Real-Time End-to-End Object Detection [NeurIPS 2024] - GitHub, 访问时间为 六月 25, 2025, https://github.com/THU-MIG/yolov10
  22. YOLOv10: Real-Time End-to-End Object Detection - arXiv, 访问时间为 六月 25, 2025, https://arxiv.org/html/2405.14458v1
  23. arXiv:2502.17843v1 [cs.CV] 25 Feb 2025, 访问时间为 六月 25, 2025, https://arxiv.org/pdf/2502.17843
  24. [2502.17843] Automatic Vehicle Detection using DETR: A Transformer-Based Approach for Navigating Treacherous Roads - arXiv, 访问时间为 六月 25, 2025, https://arxiv.org/abs/2502.17843
  25. arXiv:2211.12860v1 [cs.CV] 22 Nov 2022, 访问时间为 六月 25, 2025, https://arxiv.org/abs/2211.12860
  26. Object Detection | Papers With Code, 访问时间为 六月 25, 2025, https://paperswithcode.com/task/object-detection
  27. Unbiased Regression Loss for DETRs - arXiv, 访问时间为 六月 25, 2025, https://arxiv.org/html/2410.22638v1
  28. Real-time Transformer-based Open-Vocabulary Detection with Efficient Fusion Head - arXiv, 访问时间为 六月 25, 2025, https://arxiv.org/html/2403.06892v2
  29. An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale - SciSpace, 访问时间为 六月 25, 2025, https://scispace.com/papers/an-image-is-worth-16x16-words-transformers-for-image-v85s5ahlww
  30. AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE - OpenReview, 访问时间为 六月 25, 2025, https://openreview.net/pdf?id=YicbFdNTTy
  31. An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale, 访问时间为 六月 25, 2025, https://www.researchgate.net/publication/344828174_An_Image_is_Worth_16x16_Words_Transformers_for_Image_Recognition_at_Scale
  32. [2010.11929] An Image is Worth 16x16 Words: Transformers for …, 访问时间为 六月 25, 2025, https://ar5iv.labs.arxiv.org/html/2010.11929
  33. Scaling Vision Transformers to 22 Billion Parameters, 访问时间为 六月 25, 2025, https://arxiv.org/abs/2302.05442
  34. [2312.02139] DiffiT: Diffusion Vision Transformers for Image Generation - arXiv, 访问时间为 六月 25, 2025, https://arxiv.org/abs/2312.02139
  35. What are Generative Adversarial Networks (GANs)? | IBM, 访问时间为 六月 25, 2025, https://www.ibm.com/think/topics/generative-adversarial-networks
  36. Generative adversarial network - Wikipedia, 访问时间为 六月 25, 2025, https://en.wikipedia.org/wiki/Generative_adversarial_network
  37. From Scratch - Generative Adversarial Networks, 访问时间为 六月 25, 2025, https://ym2132.github.io/GenerativeAdversarialNetworks_Goodfellow
  38. Generative Adversarial Network (GAN) - GeeksforGeeks, 访问时间为 六月 25, 2025, https://www.geeksforgeeks.org/generative-adversarial-network-gan/
  39. Generalizing Vision-Language Models to Novel Domains: A Comprehensive Survey - arXiv, 访问时间为 六月 25, 2025, https://arxiv.org/html/2506.18504v1
  40. How Ian Goodfellow Invented GANs - DeepLearning.AI, 访问时间为 六月 25, 2025, https://www.deeplearning.ai/the-batch/ian-goodfellow-a-man-a-plan-a-gan/
  41. Ian Goodfellow: Generative Adversarial Networks (GANs) | Lex Fridman Podcast #19, 访问时间为 六月 25, 2025, https://www.youtube.com/watch?v=Z6rxFNMGdn0
  42. Denoising Diffusion Probabilistic Models - arXiv, 访问时间为 六月 25, 2025, http://arxiv.org/pdf/2006.11239
  43. Denoising Diffusion Probabilistic Models, 访问时间为 六月 25, 2025, https://hojonathanho.github.io/diffusion/
  44. Denoising Diffusion Probabilistic Models (DDPM), 访问时间为 六月 25, 2025, https://www.cs.jhu.edu/~ayuille/JHUcourses/VisionAsBayesianInference2025/22/Lecture22_diffusion.pdf
  45. Denoising Diffusion Probabilistic Models, 访问时间为 六月 25, 2025, https://arxiv.org/pdf/2006.11239
  46. Adding Conditional Control to Text-to-Image Diffusion Models, 访问时间为 六月 25, 2025, https://arxiv.org/abs/2302.05543
  47. arXiv:2302.05543v3 [cs.CV] 26 Nov 2023, 访问时间为 六月 25, 2025, http://arxiv.org/pdf/2302.05543
  48. Most Influential ICCV Papers (2024-09 Version) – Resources …, 访问时间为 六月 25, 2025, https://www.paperdigest.org/2024/09/most-influential-iccv-papers-2024-09/
  49. [2502.14779] DC-ControlNet: Decoupling Inter- and Intra-Element Conditions in Image Generation with Diffusion Models - arXiv, 访问时间为 六月 25, 2025, https://arxiv.org/abs/2502.14779
  50. [2404.07987] ControlNet++: Improving Conditional Controls with Efficient Consistency Feedback - arXiv, 访问时间为 六月 25, 2025, https://arxiv.org/abs/2404.07987
  51. arXiv:2211.09788v1 [cs.CV] 17 Nov 2022, 访问时间为 六月 25, 2025, https://arxiv.org/abs/2211.09788
  52. Diffusion-Based Particle-DETR for BEV Perception - arXiv, 访问时间为 六月 25, 2025, https://arxiv.org/html/2312.11578v1
  53. [2403.13304] DetDiffusion: Synergizing Generative and Perceptive Models for Enhanced Data Generation and Perception - arXiv, 访问时间为 六月 25, 2025, https://arxiv.org/abs/2403.13304
  54. A Framework for Multi-Modal RGB-X Object Detection Using DiffusionDet - arXiv, 访问时间为 六月 25, 2025, https://arxiv.org/abs/2505.02586
  55. [2211.06220] OneFormer: One Transformer to Rule Universal Image Segmentation - ar5iv, 访问时间为 六月 25, 2025, https://ar5iv.labs.arxiv.org/html/2211.06220
  56. CVPR Poster OneFormer: One Transformer To Rule Universal Image Segmentation, 访问时间为 六月 25, 2025, https://cvpr.thecvf.com/virtual/2023/poster/23168
  57. arXiv:2211.06220v1 [cs.CV] 10 Nov 2022, 访问时间为 六月 25, 2025, https://arxiv.org/pdf/2211.06220
  58. arXiv:2211.06220v1 [cs.CV] 10 Nov 2022, 访问时间为 六月 25, 2025, https://arxiv.org/abs/2211.06220
  59. [2408.09085] Segment Anything with Multiple Modalities - arXiv, 访问时间为 六月 25, 2025, https://arxiv.org/abs/2408.09085
  60. [2307.01197] Segment Anything Meets Point Tracking - arXiv, 访问时间为 六月 25, 2025, https://arxiv.org/abs/2307.01197
  61. [2304.12308] Segment Anything in 3D with Radiance Fields - arXiv, 访问时间为 六月 25, 2025, https://arxiv.org/abs/2304.12308
  62. [2505.05049] UncertainSAM: Fast and Efficient Uncertainty Quantification of the Segment Anything Model - arXiv, 访问时间为 六月 25, 2025, https://arxiv.org/abs/2505.05049
  63. A Simple Image Segmentation Framework via In-Context Examples - NIPS, 访问时间为 六月 25, 2025, https://proceedings.neurips.cc/paper_files/paper/2024/file/2cc0b08447bf9668db268e6c86364a6e-Paper-Conference.pdf
  64. openai/CLIP: CLIP (Contrastive Language-Image Pretraining), Predict the most relevant text snippet given an image - GitHub, 访问时间为 六月 25, 2025, https://github.com/openai/CLIP
  65. CLIP Explained | Papers With Code, 访问时间为 六月 25, 2025, https://paperswithcode.com/method/clip
  66. CLIP: Connecting text and images - OpenAI, 访问时间为 六月 25, 2025, https://openai.com/index/clip/
  67. Salesforce/blip-image-captioning-large - Hugging Face, 访问时间为 六月 25, 2025, https://huggingface.co/Salesforce/blip-image-captioning-large
  68. BLIP-2: Bootstrapping Language-Image Pre … - The Nemati Lab, 访问时间为 六月 25, 2025, https://arxiv.org/abs/2301.12597
  69. BLIP-2: Scalable Multimodal Pre-training Method - Salesforce, 访问时间为 六月 25, 2025, https://www.salesforce.com/blog/blip-2/
  70. Visual Instruction Tuning - NIPS, 访问时间为 六月 25, 2025, https://papers.nips.cc/paper_files/paper/2023/hash/6dcf277ea32ce3288914faf369fe6de0-Abstract-Conference.html
  71. LLaVA: Large Language and Vision Assistant - Microsoft Research, 访问时间为 六月 25, 2025, https://www.microsoft.com/en-us/research/project/llava-large-language-and-vision-assistant/
  72. Visual Instruction Tuning | OpenReview, 访问时间为 六月 25, 2025, https://openreview.net/forum?id=w0H2xGHlkw
  73. GPT-4V(ision) System Card - OpenAI, 访问时间为 六月 25, 2025, https://cdn.openai.com/papers/GPTV_System_Card.pdf
  74. arXiv:2501.02189v6 [cs.CV] 6 Apr 2025, 访问时间为 六月 25, 2025, https://arxiv.org/abs/2501.02189
  75. A Survey of State of the Art Large Vision Language Models: Alignment, Benchmark, Evaluations and Challenges - arXiv, 访问时间为 六月 25, 2025, https://arxiv.org/html/2501.02189v6
  76. arXiv:2412.01282v1 [cs.CV] 2 Dec 2024, 访问时间为 六月 25, 2025, https://arxiv.org/pdf/2412.01282
  77. [2504.09724] A Survey on Efficient Vision-Language Models - arXiv, 访问时间为 六月 25, 2025, https://arxiv.org/abs/2504.09724
  78. (PDF) A Survey on Efficient Vision-Language Models - ResearchGate, 访问时间为 六月 25, 2025, https://www.researchgate.net/publication/390773439_A_Survey_on_Efficient_Vision-Language_Models
  79. arXiv:2502.11492v2 [cs.AI] 10 Mar 2025, 访问时间为 六月 25, 2025, https://arxiv.org/pdf/2502.11492
  80. jingyi0000/VLM_survey: Collection of AWESOME vision-language models for vision tasks - GitHub, 访问时间为 六月 25, 2025, https://github.com/jingyi0000/VLM_survey
  81. MPSC-UMBC/Efficient-Vision-Language-Models-A-Survey - GitHub, 访问时间为 六月 25, 2025, https://github.com/MPSC-UMBC/Efficient-Vision-Language-Models-A-Survey
  82. Towards Unifying Understanding and Generation in the Era of …, 访问时间为 六月 25, 2025, https://arxiv.org/abs/2410.22217
  83. Why 2024 Was the Best Year for Visual AI (So Far) - Voxel51, 访问时间为 六月 25, 2025, https://voxel51.com/blog/why-2024-was-the-best-year-for-visual-ai-so-far
  84. NeRF: Neural Radiance Field in 3D Vision: A Comprehensive Review - arXiv, 访问时间为 六月 25, 2025, https://arxiv.org/html/2210.00379v6
  85. Evaluating 3D Reconstruction: A Side-by-Side Comparison of NeRF and Gaussian Splatting Under Various Filming Techniques - Preprints.org, 访问时间为 六月 25, 2025, https://www.preprints.org/manuscript/202504.1068/v1
  86. Why 2024 Was the Best Year for Visual AI (So Far) - Voxel51, 访问时间为 六月 25, 2025, https://voxel51.com/blog/why-2024-was-the-best-year-for-visual-ai-so-far/
  87. Zero-1-to-3: Zero-shot One Image to 3D Object, 访问时间为 六月 25, 2025, https://zero123.cs.columbia.edu/
  88. arXiv:2303.11328v1 [cs.CV] 20 Mar 2023, 访问时间为 六月 25, 2025, https://arxiv.org/abs/2303.11328
  89. Generative Physical AI in Vision: A Survey - arXiv, 访问时间为 六月 25, 2025, https://arxiv.org/html/2501.10928v2
  90. Trends and Techniques in 3D Reconstruction and Rendering: A …, 访问时间为 六月 25, 2025, https://www.mdpi.com/1424-8220/25/12/3626
  91. Compression in 3D Gaussian Splatting: A Survey of Methods, Trends, and Future Directions, 访问时间为 六月 25, 2025, https://openreview.net/forum?id=A5sFEr3LYY&referrer=%5Bthe%20profile%20of%20Enzo%20Tartaglione%5D(%2Fprofile%3Fid%3D~Enzo_Tartaglione1)
  92. A Survey on Efficient Vision-Language Models - arXiv, 访问时间为 六月 25, 2025, https://arxiv.org/html/2504.09724
  93. Keynotes Announced for CVPR 2024 - CVPR 2025 - The Computer Vision Foundation, 访问时间为 六月 25, 2025, https://cvpr.thecvf.com/Conferences/2024/News/Keynotes
  94. 2024 Keynotes - ECCV, 访问时间为 六月 25, 2025, https://eccv.ecva.net/Conferences/2024/Keynotes
  95. Keynotes Announced for CVPR 2024 - IEEE Computer Society, 访问时间为 六月 25, 2025, https://www.computer.org/press-room/keynotes-announced-for-cvpr-2024
Logo

脑启社区是一个专注类脑智能领域的开发者社区。欢迎加入社区,共建类脑智能生态。社区为开发者提供了丰富的开源类脑工具软件、类脑算法模型及数据集、类脑知识库、类脑技术培训课程以及类脑应用案例等资源。

更多推荐