CRCL: Causal Representation Consistency Learning for Anomaly Detection in Surveillance Videos
视频异常检测(VAD)在视频理解领域仍然是一项基础且具有挑战性的任务,在信息取证和公共安全保护等领域有着广阔的应用前景。由于异常情况的罕见性和多样性,现有方法仅利用容易收集的正常事件,以无监督的方式对正常时空模式的内在常态进行建模。尽管这些方法受益于深度学习的发展取得了显著进展,但它们试图对可观测视频和语义标签之间的统计依赖关系进行建模,这是对常态的粗略描述,缺乏对其潜在因果关系的系统探索。

标题:用于监控视频异常检测的因果表示一致性学习
原文链接:https://arxiv.org/pdf/2503.18808
摘要:视频异常检测(VAD)在视频理解领域仍然是一项基础且具有挑战性的任务,在信息取证和公共安全保护等领域有着广阔的应用前景。由于异常情况的罕见性和多样性,现有方法仅利用容易收集的正常事件,以无监督的方式对正常时空模式的内在常态进行建模。尽管这些方法受益于深度学习的发展取得了显著进展,但它们试图对可观测视频和语义标签之间的统计依赖关系进行建模,这是对常态的粗略描述,缺乏对其潜在因果关系的系统探索。以往研究表明,现有的无监督VAD模型在现实场景中无法处理与标签无关的数据偏移(如场景变化),并且由于深度神经网络的过度泛化,可能无法对轻微异常做出响应。受因果关系学习的启发,我们认为存在一些因果因素,能够充分概括正常事件的典型模式,并在异常实例出现时表现出显著偏差。对此,我们提出因果表示一致性学习(CRCL),以在无监督视频常态学习中隐式挖掘潜在的场景鲁棒因果变量。具体而言,基于结构因果模型,我们提出场景去偏学习和因果启发的常态学习,分别去除深度表示中纠缠的场景偏差和学习因果视频常态。在基准数据集上的大量实验验证了我们的方法优于传统深度表示学习方法。此外,消融研究和扩展验证表明,CRCL能够应对多场景设置中与标签无关的偏差,并且在仅有有限训练数据的情况下保持稳定性能。
关键词:视频监控;异常检测;无监督学习;因果关系学习;表示学习
一、引言
视频异常检测(VAD)旨在主动发现监控视频中的异常时空模式,自动检测超出人类预期的异常事件,如暴力行为、交通拥堵和工业事故等,在信息取证、智慧城市和现代制造业等领域具有广阔的应用潜力。然而,由于异常情况的模糊性和多样性,以及视频独特的高维特征,VAD仍然是模式识别和视频处理领域中一个有待进一步探索的关键任务。具体来说,在现实世界中,异常的概念是主观和相对的,即相似的行为模式在不同的上下文场景或人类感知下可能被归类为不同的类别,这意味着很难提前明确界定所有可能的异常情况并对可用数据进行精细标注。此外,异常实例的发生频率远低于正常实例,难以收集到数量均衡的样本用于训练。因此,设计能够仅使用少量甚至没有异常样本,就应对来自现实世界的各种异常情况的模型,仍然是一个巨大的挑战。
现有的深度表示学习(DeepReL)方法通常将VAD构建为一个无监督的分布外检测任务,仅使用容易收集的正常事件来学习典型的正常模式,即常态,其假设是用正常视频训练的模型无法表征未见过的异常情况。受稀疏表示学习(SRL)的启发,我们认为正常样本包含共享语义和私有语义,即各种正常事件共有的典型特征和单个负样本所具有的与标签无关的个性化特征。由于采集设备和环境条件的差异,现实世界的监控视频通常包含随机和多样的数据偏差,尤其是场景变化。然而,基于DeepReL的VAD模型建立的统计依赖关系通常无法抵御这种干扰。带有偏差的正常事件,如新场景中发生的正常行为,可能会被误分类为异常,导致高误报率。此外,正常事件和异常事件之间存在语义模式交叉,因此在没有见过正样本的情况下,无监督VAD很难有效忽略这些无区分性的语义。一个难以承受的后果是,仅在正常样本上训练的模型可能会由于学习到的模式过多,在测试阶段对异常实例进行有效推理,从而导致漏检。它们试图在正常事件的时空模式和负标签之间建立统计依赖关系,使得学习到的表示无法应对具有场景偏差的正常事件和现实世界中多样的异常实例。现有研究表明,基于DeepReL的VAD模型很难在有效表示正常模式和对异常的有限泛化之间保持合理平衡。近年来,因果关系学习被提出用于挖掘观测数据的潜在因果关系,而不是简单地对给定标签的统计依赖关系进行建模,在领域泛化和推荐系统等方面取得了显著成功。受此启发,我们将因果关系引入无监督视频常态学习,试图利用因果完整性和独立性来学习VAD中的因果因素,并构建一个场景鲁棒的VAD模型。
为此,我们的初步研究通过构建结构因果模型(表示为CVAD - SCM)探索了用于无监督VAD的因果学习,如图1(a)所示。在CVAD - SCM中, X X X和 Y Y Y分别表示训练集中的正常视频和语义标签。受共同因果原则(CCP)的启发,可观测的 X X X由一个因果变量 Z Z Z和与标签无关的非因果变量 U U U组成, Z Z Z充分描述了正常事件的典型模式, U U U由采集设备和外部环境的变化引起。然而,在因果表示学习(CausalReL)中, Z Z Z和 U U U都无法直接观测到,因此无法量化 U U U中场景变化的影响。因此,虽然CVAD - SCM突出了基于DeepReL的VAD模型的局限性,但它为构建场景鲁棒的VAD系统提供的指导有限。为了解决这一局限性,本文提出了一种新的用于场景去偏的结构因果模型(表示为Sd - SCM),明确对场景偏差 F s c e F_{sce} Fsce如何通过纠缠表示 F e n t F_{ent} Fent影响视频常态学习进行建模,即 ( F s c e , F n ) → F e n t → Y (F_{sce}, F_{n}) \to F_{ent} \to Y (Fsce,Fn)→Fent→Y,如图1(b)所示。基于这个Sd - SCM,我们开发了场景去偏学习(SdL),通过从纠缠表示中去除 F s c e F_{sce} Fsce来消除场景偏差,获得遵循理想路径 F n → F e n t → Y F_{n} \to F_{ent} \to Y Fn→Fent→Y的有区分性的常态内生特征 F n F_{n} Fn。稀疏机制转移(SMS)假设从理论上证明了我们提出的因果表示一致性学习(CRCL)的合理性。如图1(c)所示,尽管在图像域中存在显著变化,但各种正常事件在学习到的因果一致性上仅表现出局部和有限的差异。在测试时,未见过的具有不同语义的异常事件 a a a会引发学习到的因果表示一致性的全局变化或崩溃,而具有未知的与标签无关偏移的新正常事件 n ′ n' n′只会引起轻微变化。训练过程结合了因果启发的常态学习(CiNL)和SdL,基于独立因果机制(ICM)和多视图模式一致性优化目标。在推理时,CRCL通过评估测试样本是否保持学习到的因果表示一致性来识别异常。
综上所述,本文提出了一种新的受因果关系启发的框架CRCL,用于场景鲁棒的VAD,在理论、技术和实验方面都取得了重大进展。理论上,我们构建了第一个用于场景鲁棒VAD的结构因果模型(SCM),明确描述了场景偏差和视频常态之间的因果关系,并开发了一种基于总直接效应(TDE)分析和减轻场景偏差的原则性方法。技术上,我们将传统DeepReL提取的时空特征视为包含常态内生特征和场景偏差的纠缠表示,并提出了几个关键创新:(1)一种时间注意力增强编码器 E m E_{m} Em,用于获取原始视频片段的运动感知表示,同时输入到SdL和CiNL模块中,分别进行场景去偏和因果变量挖掘;(2)一种基于二维卷积网络的场景编码器 E s E_{s} Es,用于提取背景特征,输入到SdL中感知与标签无关的偏移;(3)CiNL中一种新颖的内存寻址机制,有助于分离共享语义和私有语义。实验上,我们在具有挑战性的场景中展示了显著的性能提升:CRCL在跨场景视频上取得了优异的结果,在有限的训练样本(即使只有50%的数据)下保持了稳健的性能,并且在单场景和多场景设置中都显示出一致的优势。这些在理论、实现和验证方面的全面进展共同使CRCL成为开发适用于现实世界应用的场景鲁棒VAD模型的重要一步。本文的主要贡献总结如下:
- 我们开发了一个基于因果关系的场景鲁棒VAD框架,提出CRCL来学习蕴含因果机制的视频常态,并通过表示一致性检测现实世界中的视频异常。
- 我们提出了带有结构因果模型的SdL,从纠缠表示中去除场景偏差,使CRCL能够抵抗与标签无关的偏移。
- 我们将时间注意力和内存过滤策略引入CiNL,增强了CRCL学习运动动态和原型特征的能力。
- 大量实验验证了我们方法的优越性,多场景验证证实了其抵抗场景变化的能力,即使只有50%的训练数据,它也能保持稳定的性能。
本文的其余部分结构如下。第二节介绍相关工作,包括VAD和因果关系学习的最新进展。第三节从因果关系的角度阐述无监督VAD,并介绍场景去偏学习的原理。第四节阐述所提出的CRCL的结构、实现和优化过程。第五节提供定量实验、消融研究、定性分析和扩展讨论的结果。第六节总结本文。
二、相关工作
(一)视频异常检测
早期的VAD工作遵循开放世界假设的无监督设置,并将此任务构建为一类分类问题。它们试图使用手工设计的特征来建立边界,但可能会受到维度诅咒的困扰。随着深度学习的发展,研究人员提出使用生成模型来学习时空表示和典型的正常模式。例如,文献[17]中的卷积自编码器(ConvAE)使用自编码器(AE)重建输入序列,并基于重建误差计算异常分数。类似地,Liu等人提出了一种视频预测框架,通过预测误差来量化异常程度。后续工作包括改进结构,如采用双流网络独立学习外观和运动常态,以及代理任务聚合。
在最近的研究中,研究人员探索了正常视频的内在语义一致性来学习常态,无论是跨不同信息维度还是在特定区域内。文献[22]中的AMMC - Net利用记忆网络存储训练样本的原型模式,力求实现外观 - 运动一致性。此外,新兴的对象级方法试图探究对象与场景语义之间的相互作用。然而,这些方法要么由于过度泛化而无法检测轻微异常,要么由于受限的表示学习能力,在处理带有数据偏差的未见过的正常事件时难以有效推理。与弱监督方法相比,无监督VAD难以抵抗与标签无关的数据偏差,在处理多场景视频或只有有限的正常事件可用于训练时,性能会显著下降。尽管研究人员提出使用预训练的目标检测或实例分割模型来提取感兴趣的前景对象,并单独对其属性进行建模,以避免背景场景的干扰,但这种方法引入了额外的数据预处理,并且需要预先定义要识别的目标。这些方法,包括基于推理的、场景感知的和场景相关的方法,采用显式推理过程对前景对象和背景场景之间的关联进行建模,通过分析测试视频中的语义偏差来进行异常检测。例如,Sun等人开发了场景感知上下文推理,将视觉上下文(如对象外观、时空关系和场景类型)编码为图,并使用循环神经网络进行上下文推理。深度证据推理将视觉线索编码为证据,并基于证据分布估计不确定性,利用深度高斯网络对前景 - 背景关联进行建模。层次语义对比方法利用预训练的视频解析模型提取前景对象和背景场景的高级语义特征,通过场景级和对象级对比学习优化特征表示。虽然这些方法在理解复杂场景和时空交互方面表现出色,但它们的有效性往往受到对目标检测器或骨架提取模型的依赖,以及数据处理工具的固有局限性和计算复杂性的限制。现有研究表明,使用视频级标签作为先验知识的弱监督方法更可靠,在多场景数据集上的性能优于无监督方法。然而,它们只能检测特定的异常,不具备开放集识别能力。在这方面,我们继续关注无监督VAD,并尝试从因果关系的角度重新审视这个任务,以提高模型适应复杂场景的能力。与受纠缠表示和非因果变量限制的基于DeepReL的模型不同,我们提出的CRCL采用因果表示学习(CausalReL)来去除场景偏差并挖掘因果常态。通过SdL和CiNL的协同作用,我们的CRCL可以学习描述正常事件原型模式的因果因素,在表示和泛化之间取得平衡。
(二)因果关系学习
深度表示学习(DeepReL)模型主要围绕学习训练样本和给定标签之间的统计依赖关系,在理想的独立同分布(i.i.d.)范式下运行。相比之下,因果关系学习技术,包括因果推理和因果表示学习,试图突破i.i.d.的限制,以提高人工智能算法在现实世界中的实用性。具体来说,因果关系学习将统计依赖视为对物理世界的过度简化抽象,在处理分布转移和干预场景时存在不足,而在表示学习中挖掘潜在的因果关系将有助于模型学习数据和标签之间的本质联系。因果驱动的表示模型在在线推荐系统和领域泛化等任务中表现出令人印象深刻的性能,突出了因果表示学习(CausalReL)构建稳健和可重用机制的潜力,这对于实现场景鲁棒的高性能VAD至关重要。
现实世界的视频通常包含不可预测的任意偏差,这些偏差通常与常态内生特征纠缠在一起,可能导致DeepReL模型将它们视为异常线索。此外,正常事件包含个体个性化语义。基于DeepReL的异常检测器通常无法适应这些私有特征,因为在训练阶段只有正常样本可用。此外,异常事件的多样性和无界性意味着它们的模式可能与正常实例的模式相交。因此,有必要获得准确描述视频常态基本因素的表示,这促使我们引入因果表示学习(CausalReL)来解耦纠缠表示并学习因果因素。尽管已经有在VAD中利用因果关系的尝试,但我们的CRCL是第一个针对无监督任务的工作。与完全无监督和弱监督任务设置相比,对于只有正常样本可用的无监督VAD,构建干预和表示策略更加困难。具体来说,Lin等人构建了一个因果图和因果推理框架,用于分析和消除完全无监督VAD中伪标签生成过程的混杂效应,并利用基于反事实的模型集成来建模长期事件依赖关系,以提高检测性能。Wu等人关注弱监督VAD中的时间线索和特征区分,提出了一个因果时间关系模块来捕捉特征之间的局部时间依赖关系,以增强特征。Sun等人提出了一个因果生成模型,用于区分视频中与事件相关和不相关的因素,并使用记忆增强模块学习与事件相关因素的原型,以消除异常预测中与事件不相关因素的干扰。相比之下,我们提出的CRCL首次从因果关系的角度审视无监督视频常态学习中的场景偏差,并试图利用常态内生表示的一致性来检测异常,在多场景数据集和只有少量正常事件可用于模型训练的复杂任务设置中表现良好。
三、预备知识
(一)因果视角下的无监督VAD
在第一节中,我们已经指出,深度表示学习(DeepReL)提取的时空特征既包含对描述常态至关重要的因果变量,也包含来自未知偏差的与标签无关的非因果变量。传统的VAD方法倾向于学习正常视频内在的统计独立性,这往往会导致无信息的表示或过度泛化。对此,我们引入一个结构因果模型(SCM),如图1(a)所示,它指导我们从因果关系的角度阐述无监督视频常态学习,并设计图2中的CiNL模块。所提出的CRCL旨在探索无监督VAD的因果因素,并对超出可观测训练数据的稳健因果常态进行建模。

具体来说,我们首先引入共同因果原则(CCP),它揭示了统计依赖和因果关系之间的复杂联系:如果两个可观测变量 X X X和 Y Y Y在统计上相关,那么存在一个变量 Z Z Z,它对两者都有因果影响,并且在给定 Z Z Z的条件下,能使它们相互独立,从而解释所有的相关性 。
CCP通常作为因果推理和因果表示学习的基本框架,它表明变量之间观察到的相关性通常可以由共享的因果因素来解释。对于无监督VAD任务,我们用 X X X表示可观测的正常事件,用 Y Y Y表示视频常态(标签为0)。不可观测的因果变量 Z Z Z起着关键作用,在原始数据分布和常态学习过程中都有影响。换句话说, Z Z Z体现了典型目标——在外观异常的情况下平衡意外对象,或者作为正常对象与场景交互的体现,与运动异常中的违规情况形成对比。通过图1(b),我们试图从具有内部一致性的原始深度表示中隐式学习因果因素 { z 1 , ⋯ , z n } \{z_{1}, \cdots, z_{n}\} {z1,⋯,zn}:
X : = f ( Z , U , P ) , Z ⊥ U ⊥ P Y : = h ( Z , P ) = h ( g ( X ) , P ′ ) , P ⊥ P ′ \begin{align} X&:=f(Z, U, P), Z \perp U \perp P\\ Y&:=h(Z, P)=h\left(g(X), P'\right), P \perp P' \end{align} XY:=f(Z,U,P),Z⊥U⊥P:=h(Z,P)=h(g(X),P′),P⊥P′
其中 U U U表示仅影响 X X X的非因果变量,代表与常态学习无关的特定领域信息。此外, P P P和 P ′ P' P′表示联合独立的未解释扰动噪声。函数 f ( ⋅ , ⋅ , ⋅ ) f(\cdot, \cdot, \cdot) f(⋅,⋅,⋅)、 h ( ⋅ , ⋅ ) h(\cdot, \cdot) h(⋅,⋅)和 g ( ⋅ ) g(\cdot) g(⋅)构成由因果机制表征的未知结构实体。根据CCP和不变因果机制,我们知道对于任何分布 P ( X , Y ) ∈ P P(X, Y) \in P P(X,Y)∈P,当提供因果变量 Z Z Z时,存在一个通用的条件分布 P ( Y ∣ Z ) P(Y | Z) P(Y∣Z)是必要的。因此,固有地传达因果关系的表示对于能够表征各种正常事件的稳健常态学习是必要的。
然而,对于非结构化视频,因果变量通常无法直接观测,因此缺乏明确构建因果表示的指导先例。根据因果表示学习(CausalReL)的既定共识,我们的CRCL旨在利用独立因果机制(ICM)学习一组正交因果因素:一个系统变量的因果生成过程由相互独立、互不影响的自主模块组成。在概率情况下,这意味着每个变量在给定其原因(即其机制)时的条件分布不会影响其他机制 。
(二)场景去偏学习的因果分析

此外,CRCL通过因果干预识别纠缠表征中可能存在的场景偏差。具体而言,我们首先构建图1(b)所示的结构因果图,以分析场景偏差对现有常态学习范式的潜在影响,其中 F e n t F_{ent} Fent表示生成模型获取的视频序列特征,由常态内生特征 F n F_{n} Fn和场景偏差 F s c e F_{sce} Fsce决定。适用于实际应用的VAD模型的理想流程是 F n → F e n t → Y F_{n} \to F_{ent} \to Y Fn→Fent→Y,即用于区分异常的语义表征源自 F n F_{n} Fn,且不受 F s c e F_{sce} Fsce的影响。然而,现有基于深度表征学习(DeepReL)的方法的典型过程是 ( F n , F s c e ) → F e n t → Y (F_{n}, F_{sce }) \to F_{ent } \to Y (Fn,Fsce)→Fent→Y,因为它们在提取深度特征时未考虑场景变化,直接使用编码器,其中 F s c e → F e n t → Y F_{sce } \to F_{ent } \to Y Fsce→Fent→Y表明 F s c e F_{sce } Fsce通过影响 F e n t F_{ent } Fent的判别力,对VAD模型产生负面影响。这些方法试图建立统计依赖关系(即 F n → Y F_{n} \to Y Fn→Y和 F s c e → Y F_{sce } \to Y Fsce→Y),而场景偏差通过干扰表征学习的中间过程,影响模型性能。
受因果推断的启发,我们使用do - 运算 d o ( X ) do(X) do(X)来截断 F s c e F_{sce} Fsce对常态学习的影响,如下所示:
P ( Y ∣ d o ( F n ) ) = ∑ C P ( Y ∣ F n , C = F s c e ) P ( C = F s c e ) P(Y | do(F_{n}))=\sum_{C} P\left(Y | F_{n}, C = F_{sce }\right) P\left(C = F_{sce }\right) P(Y∣do(Fn))=C∑P(Y∣Fn,C=Fsce)P(C=Fsce)
其中,后门调整中的 P ( C = F s c e ) P(C = F_{sce }) P(C=Fsce)需要明确特定场景的影响 c c c,这在训练阶段仅有正常事件的VAD中难以实现。因此,我们使用总直接效应(TDE)在检测结果中模拟去偏过程,如下所示:
T D E ← Y F n , c ( F e n t ) − Y c ( F e n t ) TDE \leftarrow Y_{F_{n}, c}\left(F_{ent }\right)-Y_{c}\left(F_{ent }\right) TDE←YFn,c(Fent)−Yc(Fent)
其中, Y F n , c Y_{F_{n}, c} YFn,c和 Y c Y_{c} Yc分别表示一般检测结果和特定偏差结果。通过具体化 F s c e F_{sce} Fsce的影响,我们可以直接消除负偏差,并通过减法探索 F e n t F_{ent} Fent中与 F n F_{n} Fn相关的本质。
(三)可行性分析
如第一节所述,我们将正常事件的共享特征和私有特征都视为常态的表现形式。鉴于视频事件的广泛范围,传统的表征学习难以精确描绘这些指向同一因果变量的多视图特征的分布。通过隐式独立性获取因果表征变得可行,这与稀疏机制转移(SMS)假设一致:小的分布变化倾向于在因果分解中以稀疏或局部的方式表现出来,即它们通常不应同时影响所有因素。
SMS原则表明,复杂系统中的变化通常只影响一部分因果机制,为识别和分析因果系统中的分布变化提供了有价值的框架。这促使我们获取对异常更敏感的因果变量,通过内在一致性实现。为了具体实现这一想法,我们引入一个原型分解器,将原始深度表征划分为私有特征和共享特征,用于训练因果启发的特征器。我们引入聚类技术,并应用余弦相似性约束,以促进对因果一致性的探索,最终得到特定任务的表征。此外,TDE过程为消除场景偏差提供了解决方案,如公式(5)所示。通过相互优化SdL和CiNL,所提出的CRCL可以逐渐感知深度表征中纠缠的偏差,并通过因果干预消除它们。
四、方法论
在本节中,我们首先分析CiNL如何利用外部记忆网络 M M M分离私有语义和共享语义 { F p , F s } \{F_{p}, F_{s}\} {Fp,Fs},并利用因果启发的特征器(CiC)学习具有 F p F_{p} Fp和 F s F_{s} Fs之间标签一致性的正交因果因素 { z 1 , ⋯ , z n } \{z_{1}, \cdots, z_{n}\} {z1,⋯,zn}。然后,我们将两个场景分类器 { C m , C s } \{C_{m}, C_{s}\} {Cm,Cs}引入SdL,以检测纠缠表征 F e n t F_{ent} Fent中的场景偏差 F s c e F_{sce} Fsce,并通过与CiNL的协同优化消除 F s c e F_{sce} Fsce。最后,我们解释训练良好的CRCL模型如何通过测量测试样本是否表现出因果一致性,定量计算异常分数。
(一)原型学习与分解

记忆可以保留正常事件的原型,并抑制深度表征学习(DeepReL)对未见过的异常实例过度泛化的趋势。如图2所示,记忆更新过程 M t → M t + 1 M_{t} \to M_{t + 1} Mt→Mt+1体现了对一般时空特征 F ∈ R H × W × C F \in \mathbb{R}^{H×W×C} F∈RH×W×C的同化。具体而言,记忆池被表示为一个二维矩阵,记为 M ∈ R C × N M \in \mathbb{R}^{C×N} M∈RC×N,其中 N N N表示影响信息容量的记忆项数量。值得注意的是,记忆池没有可学习的参数,但能够自适应地更新其记忆项,以编码原型特征。这是通过使用 M M M作为查询 Q M Q_{M} QM的写入操作实现的,如下所示:
M t + 1 = l 2 ( M + V F Ψ ( K F T Q M C ) ) \mathcal{M}_{t + 1}=l_{2}\left(M + V_{F} \Psi\left(\frac{K_{F}^{T} Q_{M}}{\sqrt{C}}\right)\right) Mt+1=l2(M+VFΨ(CKFTQM))
这里, V F = K F = e ( F ) ∈ R C × N V_{F}=K_{F}=e(F) \in \mathbb{R}^{C×N} VF=KF=e(F)∈RC×N,其中 e ( . ) e(.) e(.)表示沿空间维度的扩展操作,得到 N = H × W N = H×W N=H×W。应用 l 2 ( ⋅ ) l_{2}(\cdot) l2(⋅)操作可保持 M t M_{t} Mt和 M t + 1 M_{t + 1} Mt+1之间的数据尺度一致,而 Ψ \Psi Ψ表示softmax操作。相反,读取操作用于以原型 F ′ F' F′的形式重建 F F F,使用扩展后的 F F F作为查询 Q F Q_{F} QF,如下所示:
F ′ = V M ∣ Ψ ( K M T e ( F ) C ) ∣ , V M = K M = M ∈ R C × N F'=V_{M}\left|\Psi\left(\frac{K_{M}^{T} e(F)}{\sqrt{C}}\right)\right|, V_{M}=K_{M}=M \in \mathbb{R}^{C×N} F′=VM
Ψ(CKMTe(F))
,VM=KM=M∈RC×N
其中, ∣ ⋅ ∣ |\cdot| ∣⋅∣表示一种过滤策略,仅保留前 k k k个相关项来重建 F F F,如图3所示。与使用所有 N N N个记忆项来重建 F F F相比,前 k k k个过滤机制促使记忆项专注于典型的正常模式,忽略 F F F中的低频个性化特征,使 F ′ F' F′更接近正常视频的原型特征。

去偏后的特征 F F F包含共享的原型语义和独特的个性化语义,分别表示为 { F s , F p } \{F_{s}, F_{p}\} {Fs,Fp}。如第一节所述, F s F_{s} Fs和 F p F_{p} Fp与标签1都具有统计亲和力。根据稀疏表征学习(SRL),我们使用类似挤压激励(SE)的过程,从 F F F和 F ′ F' F′中分离 F s F_{s} Fs和 F p F_{p} Fp 。这个过程如图4所示。首先, F F F和 F ′ F' F′经过平均池化和最大池化,得到 { f a v g , f a v g ′ , f m a x , f m a x ′ } ∈ R C \{f_{avg }, f_{avg }', f_{max }, f_{max }'\} \in \mathbb{R}^{C} {favg,favg′,fmax,fmax′}∈RC。随后,两个具有可学习参数 { θ , θ 2 } \{\theta, \theta_{2}\} {θ,θ2}的多层感知器(MLP)将它们转换为差异分数 { α , β } \{\alpha, \beta\} {α,β}:
α = M L P ( f a v g − f a v g ′ ; θ 1 ) , β = M L P ( f m a x − f m a x ′ ; θ 2 ) \alpha = MLP\left(f_{avg } - f_{avg }'; \theta_{1}\right), \beta = MLP\left(f_{max } - f_{max }'; \theta_{2}\right) α=MLP(favg−favg′;θ1),β=MLP(fmax−fmax′;θ2)
最后,我们使用 α \alpha α和 β \beta β通过逐通道乘法 ∗ * ∗分离 F p F_{p} Fp和 F s F_{s} Fs,如下所示:
F p = α + β 2 ⊛ F , F s = ( 1 − α + β 2 ) ⊛ F ′ F_{p}=\frac{\alpha + \beta}{2} \circledast F, F_{s}=\left(1 - \frac{\alpha + \beta}{2}\right) \circledast F' Fp=2α+β⊛F,Fs=(1−2α+β)⊛F′
(二)表征一致性学习
基于共同因果原则(CCP)和独立因果机制(ICM)的见解,我们认识到存在联合独立的因果因素,这些因素有可能全面涵盖从低级视频内容到高级常态的统计依赖关系。此外,稀疏机制转移(SMS)强调,表征正常事件的不同特征对因果因素及其一致性的影响有限。因此,我们引入一个因果启发的特征器(CiC),专门用于学习这些不可观测的因果变量,并对正常事件固有的一致性进行建模。如图2所示,我们从一批 b b b个视频剪辑中获取时空特征并进行分解,随后将这些组件输入到CiC中。这个过程将共享特征和私有特征映射到因果表征中:
R = C i C ( F s 1 , F s 2 , ⋯ , F s b ) , R ~ = C i C ( F p 1 , F p 2 , ⋯ , F p b ) R = CiC\left(F_{s}^{1}, F_{s}^{2}, \cdots, F_{s}^{b}\right), \tilde{R} = CiC\left(F_{p}^{1}, F_{p}^{2}, \cdots, F_{p}^{b}\right) R=CiC(Fs1,Fs2,⋯,Fsb),R~=CiC(Fp1,Fp2,⋯,Fpb)
其中 R R R和 R ~ \tilde{R} R~表示因果表征,且维度均为 R b × n \mathbb{R}^{b×n} Rb×n。在实际应用中, n n n的值远小于 H × W × C H×W×C H×W×C。在无监督VAD中,目标是仅从正常事件中学习常态,使因果表征 r i r_{i} ri和 r ~ i \tilde{r}_{i} r~i表示相同的标签。因此,在进行分解干预时,因果变量应保持因果不变性。本质上,共享特征和私有特征的因果表征在因果因素维度上应保持接近,如下所示:
max 1 n ∑ i = 1 n < f i , f ~ i > ∥ f i ∥ ∥ f ~ i ∥ \max \frac{1}{n} \sum_{i = 1}^{n} \frac{\left<f_{i}, \tilde{f}_{i}\right>}{\left\| f_{i}\right\| \left\| \tilde{f}_{i}\right\| } maxn1i=1∑n∥fi∥
f~i
⟨fi,f~i⟩
其中 f i f_{i} fi和 f ~ i \tilde{f}_{i} f~i分别表示 R R R和 R ~ \tilde{R} R~的第 i i i列。
通过最大化共享特征和私有特征中同一组因果因素之间的相似性,我们激励CiC学习能够去除与标签无关的非因果变量的因果因素。为确保因果因素保持联合独立,我们构建了三个相关矩阵,分别表示 R → R ~ R \to \tilde{R} R→R~、 R → R R \to R R→R和 R ~ → R ~ \tilde{R} \to \tilde{R} R~→R~的关系,记为 C 1 C_{1} C1、 C 2 C_{2} C2和 C 3 C_{3} C3,如图2所示。与公式(11)类似, C 1 C_{1} C1的非对角元素代表 R R R和 R ~ \tilde{R} R~对应列之间的余弦相似度。相反, C 2 C_{2} C2和 C 3 C_{3} C3分别通过 C 2 ( i , j ) = < f i , f j > ∥ f i ∥ ∥ f j ∥ C_{2}(i, j)=\frac{<f_{i}, f_{j}>}{\left\|f_{i}\right\|\left\|f_{j}\right\|} C2(i,j)=∥fi∥∥fj∥<fi,fj>和 C 3 ( i , j ) = < f ~ i , f ~ j > ∥ f ~ i ∥ ∥ f ~ j ∥ C_{3}(i, j)=\frac{<\tilde{f}_{i}, \tilde{f}_{j}>}{\left\|\tilde{f}_{i}\right\|\left\|\tilde{f}_{j}\right\|} C3(i,j)=∥f~i∥∥f~j∥<f~i,f~j>封装 R R R和 R ~ \tilde{R} R~内部的相似性。
最终的优化目标是最大化相关矩阵 C 1 C_{1} C1的对角元素(值得注意的是, C 2 C_{2} C2和 C 3 C_{3} C3的对角元素始终为1),并最小化 C 1 C_{1} C1、 C 2 C_{2} C2和 C 3 C_{3} C3的非对角矩阵。相关损失 L c L_{c} Lc定义为:
L c = λ ∥ C 1 − I ∥ F 2 + ∥ C 2 − I ∥ F 2 + ∥ C 3 − I ∥ F 2 \mathcal{L}_{c}=\lambda\left\| C_{1}-I\right\| _{F}^{2}+\left\| C_{2}-I\right\| _{F}^{2}+\left\| C_{3}-I\right\| _{F}^{2} Lc=λ∥C1−I∥F2+∥C2−I∥F2+∥C3−I∥F2
其中 λ \lambda λ是一个超参数,用于控制相互相关性的权衡。 I I I表示单位矩阵。通过优化公式(12),我们确保因果因素保持联合独立,并对分解干预具有鲁棒性。正如SMS所指出的,具有偏移的正常事件只会在因果表征中引起局部差异。因此,我们采用类似文献[35]的聚类方法,进一步优化因果表征 R R R,通过聚类效应增强模型区分正常事件的能力。此外,为了优化记忆池,我们遵循文献[10]引入记忆分离性和紧凑性损失。
(三)场景去偏学习

我们提出SdL来发现纠缠表征中的场景偏差,如图2所示。在实验阶段,我们使用多场景数据集(例如上海科技大学数据集[36])来验证CRCL的有效性,并通过混合单场景数据集[37, 38]进一步证明SdL的泛化能力。CiNL的输入是由 E m E_{m} Em计算得到的时空表征, E m E_{m} Em旨在通过时间注意力机制捕捉运动动态 。计算过程如图5所示。具体而言,我们首先通过一个 3 × 3 3×3 3×3卷积层将输入特征图 E ∈ R H × W × C E \in \mathbb{R}^{H×W×C} E∈RH×W×C压缩为 S ∈ R H × W × D S \in \mathbb{R}^{H×W×D} S∈RH×W×D,其中 D < C D < C D<C。然后,通过沿通道维度的 l 2 l_{2} l2归一化计算时间方差图 V ∈ R H × W V \in \mathbb{R}^{H×W} V∈RH×W:
V ( i , j ) = 1 D ∑ k = 1 D ∥ S ( i , j , k ) − 1 D ∑ k = 1 D S ( i , j , k ) ∥ 2 2 V(i, j)=\frac{1}{D} \sum_{k = 1}^{D}\left\| S(i, j, k)-\frac{1}{D} \sum_{k = 1}^{D} S(i, j, k)\right\| _{2}^{2} V(i,j)=D1k=1∑D
S(i,j,k)−D1k=1∑DS(i,j,k)
22
其中 ( i , j ) (i, j) (i,j)表示空间位置索引。通过空间Softmax归一化获得注意力图 G ∈ R H × W G \in \mathbb{R}^{H×W} G∈RH×W:
G ( i , j ) = ∥ exp ( V ( i , j ) ) ∑ i = 1 , j = 1 H , W exp ( V ( i , j ) ) ∥ 2 2 G(i, j)=\left\| \frac{\exp (V(i, j))}{\sum_{i = 1, j = 1}^{H, W} \exp (V(i, j))}\right\| _{2}^{2} G(i,j)=
∑i=1,j=1H,Wexp(V(i,j))exp(V(i,j))
22
得到的注意力增强特征强调重要的运动模式,同时抑制微小的时间变化,有效地捕捉用于常态学习的运动相关信息。相比之下,SdL关注重复的背景,因此我们使用简单的二维卷积网络实现 E s E_{s} Es来提取场景特征。
从 E m E_{m} Em输出的纠缠特征 F e n t F_{ent} Fent和从 E s E_{s} Es输出的场景特征 F s c e F_{sce} Fsce同时输入到SdL中,通过公式(5)所示的TDE过程消除场景偏差。具体而言,我们引入两个多层感知器(MLP)作为场景分类器,记为 C s C_{s} Cs和 c m c_{m} cm,以改进 E s E_{s} Es捕捉场景信息的能力,并协助CiNL感知偏差。 C s C_{s} Cs以 b b b个视频立方体的 F s c e F_{sce} Fsce作为输入,使用交叉熵损失函数 L c s L_{cs} Lcs:
L c s = − 1 b ∑ i = 1 b ∑ j = 1 N s y i j log ( p i j ) \mathcal{L}_{c s}=-\frac{1}{b} \sum_{i = 1}^{b} \sum_{j = 1}^{N_{s}} y_{i j} \log \left(p_{i j}\right) Lcs=−b1i=1∑bj=1∑Nsyijlog(pij)
其中 y i j y_{i j} yij表示样本 i i i属于类别 j j j的真实标签(如果样本属于该类别,则为1,否则为0)。 p i j p_{i j} pij是 C s C_{s} Cs为样本 i i i预测的属于场景类别 j j j的概率。 N s N_{s} Ns表示训练集中的场景数量,上海科技大学数据集为13,常见的单场景数据集为1。类似地, c m c_{m} cm以 F e n t F_{ent} Fent作为输入,并使用交叉熵损失进行优化,记为 L c m L_{cm} Lcm。尽管我们在 E m E_{m} Em中引入时间注意力机制,以自适应地捕捉重要的时间信息,同时弱化背景,但获取的时空表征仍然包含与标签无关的场景信息。作为回应, C m C_{m} Cm通过与以下KL散度损失 L K L L_{KL} LKL相互学习,拟合与 F e n t F_{ent} Fent纠缠的场景偏差分布:
L K L = D K L ( p s s ∥ p s m ) + D K L ( p s m ∥ p s s ) \mathcal{L}_{K L}=\mathcal{D}_{KL}\left(p_{s}^{s} \| p_{s}^{m}\right)+\mathcal{D}_{KL}\left(p_{s}^{m} \| p_{s}^{s}\right) LKL=DKL(pss∥psm)+DKL(psm∥pss)
其中 p s m p_{s}^{m} psm和 p s s p_{s}^{s} pss分别表示 C m C_{m} Cm和 C s C_{s} Cs输出的场景分类概率,如图2所示。最后,我们通过比较因果相关矩阵 { C 1 ′ , C 2 ′ , C 3 ′ } \{C_{1}', C_{2}', C_{3}'\} {C1′,C2′,C3′}和 { C 1 , C 2 , C 3 } \{C_{1}, C_{2}, C_{3}\} {C1,C2,C3},对公式(5)中的TDE过程进行建模,如下所示:具体而言, F s c e F_{sce} Fsce被输入到CiNL中,在进行原型分解和因果特征化后,可以计算出因果矩阵 { C 1 ′ , C 2 ′ , C 3 ′ } \{C_{1}', C_{2}', C_{3}'\} {C1′,C2′,C3′},然而,由于场景特征对常态学习没有帮助,因此这些特征不满足CCP和ICM原则。因此,我们提出以下三元组损失 L t L_{t} Lt:
L t = ( d ( { C 1 , C 2 , C 3 } , I ) − d ( { C 1 ′ , C 2 ′ , C 3 ′ } , I ) + α , 0 ) \mathcal{L}_{t}=\left(d\left(\left\{C_{1}, C_{2}, C_{3}\right\}, I\right)-d\left(\left\{C_{1}', C_{2}', C_{3}'\right\}, I\right)+\alpha, 0\right) Lt=(d({C1,C2,C3},I)−d({C1′,C2′,C3′},I)+α,0)
其中 d ( ⋅ , ⋅ ) d(\cdot, \cdot) d(⋅,⋅)是距离度量,如公式(12)所示。 α \alpha α是一个边缘参数,用于控制正样本(即 C 1 , 2 , 3 ′ C_{1,2,3}' C1,2,3′和 I I I)和负样本(即 C 1 , 2 , 3 C_{1,2,3} C1,2,3和 I I I)之间的最小差异。通过SdL和CiNL的协同学习,CRCL可以感知 F e n t F_{ent} Fent中的场景偏差分布,并逐渐消除其负面影响。
(四)基于因果一致性的异常检测
鉴于异常检测任务的独特背景,即训练阶段仅能使用负样本,训练良好的CRCL能够有效地分解和构建正常事件的因果表征一致性。在测试阶段,异常分数 s t s_{t} st的计算基于对学习到的因果因素的偏差评估,同时考虑它们的一致性和表征:
s t = g ( ∥ C 1 − I ∥ F 2 × D ) s_{t}=g\left(\left\| C_{1}-I\right\| _{F}^{2} \times D\right) st=g(∥C1−I∥F2×D)
其中函数 g ( ⋅ ) g(\cdot) g(⋅)表示最大 - 最小归一化过程,涵盖给定测试视频的所有帧。 D D D表示给定输入视频剪辑的因果表征与聚类中心之间的聚类距离。 s t s_{t} st的第一部分,即 C 1 − I C_{1}-I C1−I,通过因果变量的内在一致性来区分异常。
五、实验
(一)实验设置
为了验证我们提出的CRCL在现实场景中的有效性,我们在三个重要的无监督VAD数据集上进行了广泛的实验。这些数据集的训练集仅包含正常视频,而来自同一场景的异常事件专门保留用于测试集。表I列出了视频数量、帧数和场景数量,简要介绍如下:
|数据集|训练集视频数|测试集视频数|正常帧数|异常帧数|场景数|
UCSD Ped2 [37]是一个小型数据集,有16个训练视频和12个测试视频,均拍摄于大学校园。它仅展示了一个简单场景,正常实例为人们在人行道上正常行走,而异常事件包括骑自行车、滑板和驾驶等活动。
CUHK Avenue [38]也是一个单场景VAD数据集,训练集和测试集分别包含16个和21个视频,有47个异常事件实例。数据集设计者精心模拟了各种类型的异常,包括仅基于外观的异常(如草坪上的人)、运动异常(如闲逛)以及两者的结合(如纸张散落)。为了展示CRCL在多场景VAD中的适用性,我们在CUHK Avenue和UCSD Ped2 [37]的混合数据集上进行了扩展实验。上海科技大学 [36]是我们研究范围内最具实用性的基准数据集,涵盖分布在13个不同场景中的130个异常事件。现有方法要么训练单独的模型来处理不同场景,这计算成本高且不切实际,要么忽略场景差异,将上海科技大学数据集视为单场景数据集。在这项工作中,我们不仅遵循现有设置,在没有场景标签的情况下进行实验,以验证CiNL模块,还引入SdL,在多场景视频上测试CRCL。
NWPU Campus [39]是最大的无监督VAD数据集,包含从43个场景中捕获的28种异常事件,如攀爬围栏、乱穿马路和乱扔垃圾,以及与场景相关的异常,如在人行道上骑自行车和错误转弯。该数据集由305个训练视频和242个测试视频组成,总计76.6GB,时长16小时。最大的数据规模、多场景设置以及与场景相关的异常定义,使其成为现有最具挑战性的无监督VAD基准数据集。
- 评估指标:在测试阶段,我们利用学习到的因果启发的常态来评估输入视频,得到一个介于[0, 1]区间的连续异常分数。值得注意的是,分数越高,测试帧被归类为异常的可能性越大。我们在不同阈值下计算真阳性率和假阳性率,进而绘制接收者操作特征曲线。曲线下面积(AUC)作为主要指标。此外,我们纳入等错误率(EER)作为辅助指标,以突出CRCL的稳健性。我们还报告在CUHK Avenue [37]数据集上的平均推理速度,并与相同实现平台上的最先进(SOTA)方法进行比较。
- 实现细节:我们的方法使用PyTorch框架实现,并在4个英伟达3090 GPU上执行。整个训练过程遵循渐进式端到端策略,主要包括两个阶段。在初始阶段,我们首先对特征提取器和表征学习网络进行100个epoch的优化,不纳入聚类约束。此阶段旨在建立强大的基本特征表征能力。随后,在联合优化阶段,我们引入聚类约束,并采用交替优化技术,通过K - means计算和更新聚类中心,同时训练SdL和CiNL模块,以优化整体目标函数。在两个阶段中,训练过程均由Adam优化器实现,初始学习率为(8×10^{-5}),批量大小(b)设置为8。训练期间损失函数的权重保持固定,所有模块共享相同的学习率。
我们将视频帧调整为224×224像素的尺寸。(E_{m})通过时间注意力机制和3D卷积网络实现,而场景编码器是一个4层的2D网络。原型分解器由两个三层全连接神经网络组成,在输出层包含一个sigmoid激活函数。对于CiC的骨干网络,我们探索了两种选择:ResNet - 18和ResNet50 [40],分别表示为CRCL18和CRCL50。超参数的选择基于经验。具体而言,我们将公式(12)中的权衡超参数(\lambda)分别设置为10、18和20,用于UCSD Ped2 [37]、CUHK Avenue [38]和上海科技大学 [36]数据集,记忆网络读取操作中的(k)分别设置为8、8和24。
(二)定量比较
为了验证所提出的CRCL在现实监控视频上的有效性,我们在主流无监督VAD基准数据集上进行了广泛的定量实验,包括不考虑场景变化的单场景视频[37, 38],以及有/无场景标签的多场景数据集[36]验证。此外,我们在相同的实现平台和数据集上,将CRCL的平均推理速度与现有方法进行比较,以展示其在实际应用中的部署潜力。
-
在单场景数据集上的性能:表II展示了CRCL与传统基于手工特征和基于DeepReL的方法,在两个单场景VAD数据集UCSD Ped2 [37]和CUHK Avenue [38]上的帧级AUC。由于此类数据集中的所有视频均从同一场景捕获,因此场景去偏学习不适用。换句话说,我们仅使用CiNL模块来学习正常事件的常态。我们的CRCL50在UCSD Ped2 [37]和CUHK Avenue [38]上分别实现了99.1%和92.9%的AUC,显著优于传统方法和现有的深度学习方法。与之前的Basic方法[11]相比,我们提出的时间注意力机制有效地捕捉了运动动态,并在记忆寻址机制中引入了过滤策略,以提高记录的原型特征的代表性。在使用相同的残差网络实现CiC的情况下,CRCL18在这两个数据集上的性能分别提高了0.2%和0.7%,这表明这些对深度表征学习的改进对简单场景的视频是有效的。此外,对于Basic [11]和改进后的CRCL,由ResNet - 50实现的模型均优于ResNet18实现的模型,这表明复杂网络在挖掘无监督视频常态的因果因素方面更有效。
-
在多场景数据集上的验证:此外,我们在有和没有场景标签的多场景上海科技大学数据集[36]上进行了实验。表III展示了CRCL变体与SOTA基于DeepReL的方法的定量比较。首先,我们遵循现有无监督方法的任务设置,将上海科技大学数据集视为单场景数据集,直接训练CiNL模块而不使用场景标签。我们的方法(CRCL18和CRCL50 w/o SdL)分别实现了75.4%和76.1%的帧级AUC,均低于具有相同CiC结构的先前方法[11],即Basic18和Basic50。与CRCL在单场景数据集上的AUC增益相比(如表II所示),这些下降表明,忽略场景偏差而仅专注于改进深度表征学习,对于复杂的多场景视频是不可行的。尽管CRCL中的CiNL引入了在深度表征学习中效果良好的组件,如时间注意力机制[19]和过滤策略[9],但纠缠特征中场景偏差的存在阻碍了模型的判别性表征,导致计算复杂度增加和性能下降。幸运的是,在将SdL与CiNL一起应用以消除场景偏差后,我们的CRCL最终在上海科技大学[36]数据集上实现了81.7%的帧级AUC,达到了最佳性能。这种设置仅需要现成的场景标签,无需手动单独标注,并且在不重复训练多个模型的昂贵成本下实现了显著的性能提升。与SOTA深度学习方法[20]相比,所提出的CRCL实现了5.2%的AUC增益,几乎全部由SdL贡献。总之,在两种训练设置下,基于CausalReL的方法通常优于基于DeepReL的方法,而SdL进一步利用因果推断从纠缠表征中消除数据偏差,与改进的CiNL相结合,增强了CRCL在多场景视频异常检测中的能力。
为了进一步评估CRCL在现实监控场景中的潜力,我们在具有挑战性的NWPU Campus数据集[39]上进行了广泛的实验。比较结果如表IV所示,包括数据集创建者提出的最先进方法FBAE [39]和SSAE [60]。如第五节A部分所述,NWPU Campus代表了VAD基准测试的重大进展,具有前所未有的规模、场景多样性和与场景相关的异常。虽然基于深度表征学习的方法[10, 22, 61]在标准基准数据集如UCSD Ped2 [37]、CUHK Avenue [38]和上海科技大学[36]上表现出强大的性能,但在这个更具挑战性的数据集上,它们的帧级AUC分数通常低于65%。我们提出的CRCL在将多场景NWPU Campus视频视为统一训练集时,实现了69.7%的帧级AUC。场景去偏学习的有效性尤为明显:与没有场景标签的变体(CRCL18和CRCL50)相比,该模块分别实现了3.1%和6.2%的显著性能提升。这些增益从经验上验证了场景偏差对场景相关VAD任务中模型性能的重大影响。虽然SSAE [60]实现了更高的检测精度,但CRCL50在最佳设置下具有27 FPS的平均推理速度,展示了卓越的计算效率。
- 等错误率和推理速度:图6展示了所提出的CRCL与Basic [11]和主流深度学习方法在CUHK Avenue [38]数据集上的EER和平均推理速度。除了表II和表III中提到的方法外,其他可用的比较模型包括WTA - AE [64]、DFSN [65]、Street Scene [66]、Trans - STR [67]和HN - MUM [68]。在检测性能方面,CRCL50实现了10.8%的EER和92.9%的AUC,达到最佳性能。对于有报告值的基于DeepReL的方法,最低的EER是MAAM - Net [53]实现的14.6%,我们的方法进一步将其显著降低了26%,展示了因果一致性学习在处理大规模视频方面的优越性。此外,在UCSD Ped2 [37]和上海科技大学[36]数据集上的结果也证明了上述优势,EER分别为3.2%和14.1%,均低于同期方法。虽然我们
(三)消融研究
单场景数据集上的对比实验证明了CRCL相较于现有深度学习方法以及我们之前工作的优越性,多场景视频实验(见表III)则展示了场景去偏学习的有效性。为进一步探究各个组件和优化约束对因果视频常态学习的影响,我们在UCSD Ped2 [37]和CUHK Avenue [38]数据集上进行了大量消融研究。结果见表V,详细分析如下:
- 组件效果分析:我们通过逐步去除关键组件,并计算相同实验设置下变体模型的帧级AUC,来定量展示这些组件的有效性。具体而言,表V中的模型1去除了聚类模块,仅使用因果启发的常态学习,在两个单场景数据集上均表现出显著的性能下降。如第一节所述,无监督VAD遵循一类分类设置,因此现有因果表示学习模型中的操作(如为下游任务构建分类器)并不适用于我们的任务。在本研究中,我们利用聚类算法促使正常事件的因果表示相互聚集,使CRCL能够学习特定任务的表示。在测试阶段,训练良好的CRCL通过计算输入样本与最近聚类中心的距离来评估异常。因此,聚类模块及其与CiNL的协同优化过程至关重要。与Basic方法[11]相比,CRCL除了引入SdL以克服场景偏差应对多场景视频外,还在CiNL的记忆网络和运动感知特征提取器 E m E_{m} Em中分别引入了过滤策略和时间注意力机制。模型2与模型10的AUC差距表明,过滤策略增强了学习原型特征的能力,能够在复杂数据集上提升模型性能。相比之下,时间注意力机制旨在通过增强 E m E_{m} Em捕捉运动动态的能力来提高纠缠表示的判别力,但由于数据偏差的存在,其贡献有限,如模型3所示。此外,模型4和模型5比较了原型分解器中平均池化和最大池化的影响。两者之间明显的AUC差距凸显了平均池化在聚合全局信息和更高效分离共享与私有特征方面的功效。而且,两种池化策略都有助于一致性学习,与模型10中的完整CRCL相比,都有累积增益。
- 优化策略有效性分析:根据共同因果原则(CCP)和独立因果机制(ICM),我们通过对相关矩阵施加约束来优化CiC模块,以挖掘视频常态学习中的因果因素,如公式(12)所示。表V中模型6 - 9的结果揭示了每个优化项对整体性能的定量影响。其中,模型6的性能下降最为显著,甚至低于早期基于深度表示学习的基线方法。相比之下,模型10仅通过对 R → R R \to R R→R的相关矩阵施加约束,在UCSD Ped2 [37]和CUHK Avenue [38]数据集上的帧级AUC分别比模型6提高了9.0%和9.3%。这证明了 ∥ C 1 − I ∥ F 2 \left\|C_{1}-I\right\|_{F}^{2} ∥C1−I∥F2在因果表示学习中的决定性作用,并验证了独立因果机制的有效性。此外,内相关矩阵的其他两个约束项,即模型7中的 ∥ C 2 − I ∥ F 2 \left\|C_{2}-I\right\|_{F}^{2} ∥C2−I∥F2和模型8中的 ∥ C 3 − I ∥ F 2 \left\|C_{3}-I\right\|_{F}^{2} ∥C3−I∥F2,影响有限。模型9直接去除上述两个约束以进一步降低计算成本,其性能下降在可接受范围内,且对于实际检测仍令人满意。
(四)定性分析
- 相关矩阵可视化:我们的CRCL旨在通过因果表示学习探索无监督VAD任务的潜在因果变量,并利用学习到的因果表示一致性检测异常。从学习对正常事件中与标签无关的数据偏移具有鲁棒性、且在面对异常实例时会发生剧烈变化的因果因素的角度来看,这是可行的。为了可视化因果表示在遇到正常和异常样本时的响应,并解释CRCL如何利用一致性进行异常检测,我们从上海科技大学[36]数据集的测试集中随机选择一对样本,并可视化它们的 R → R ^ R \to \hat{R} R→R^相关矩阵。此外,我们还提供了之前的Basic50和没有场景标签的CRCL的结果作为对比,如图7所示。第一列来自正常事件,与第二列的异常实例相比,其相关因素的正交性更好。相同表示维度上私有和共享特征的余弦相关性(即对角元素)接近1,而不同因果因素的相似性(对应非对角元素)接近0。表VI中的Frobenius范数(F - Norm)也验证了这一观察结果,F - Norm值在遇到未见过的异常样本时显示出显著变化。因此,正常和异常事件之间的F - Norm差距表明,利用因果表示一致性进行VAD是可行的。此外,由于上海科技大学[36]数据集是从各种场景收集的,Basic50和没有SdL的CRCL都无法克服任意场景偏差。通过查看第1 - 2列和第3列,它们的正常事件F - Norm都比完整的CRCL50模型大。如第五节B部分所分析的,遵循传统设置、在训练时不应用场景标签的CRCL受纠缠表示的限制,因此其在多场景数据集上的性能甚至低于之前的Basic50,F - Normal差距为3.5,低于同时使用场景去偏学习的Basic50和CRCL50。
- 异常分数曲线:图8展示了CRCL50在从UCSD Ped2 [37]数据集选取的两个样本视频上的分数曲线,其中红色窗口表示异常事件发生的时间间隔。在VAD领域,异常分数曲线是一种常用的定性评估指标,用于可视化模型区分异常的能力及其响应速度。除了视频开头的抖动外,CRCL50计算的异常分数在正常时间间隔内始终保持在较低水平。当异常事件发生时,曲线迅速上升,并在异常结束或离开摄像机视野之前一直保持在约0.8的高值附近。图8中的结果表明,我们提出的CRCL50能够快速响应视频异常,并通过分数曲线准确地定位时间间隔。
(五)扩展讨论
- 混合数据集验证:为了进一步验证所提出的CRCL在具有显著场景变化的监控视频上的有效性,我们将UCSD Ped2 [37]和CUHK Avenue [38]的训练集进行混合,并为混合数据集提供场景标签。现有的基于深度表示学习的方法,如STM - AE [7],在混合测试集上的帧级AUC仅为68.3%,低于在UCSD Ped2 [37]或CUHK Avenue [38]上的单独结果,这表明在现实场景中场景偏差不可忽视。借助场景去偏学习,CRCL18和CRCL50模型与之前的Basic18和Basic50相比,性能分别提升了4.3%和2.7%,达到77.3%和79.1%,显著优于深度学习模型。我们提出的SdL利用因果推断明确感知场景偏差,并通过TDE过程将其去除,为与背景无关的VAD模型设计提供了解决方案。
- 有限训练数据案例研究:当前采用深度表示学习技术的VAD方法旨在使用大量正常视频训练模型以创建常态模型。这些模型学习正常事件的一般模式,并通过量化测试样本与已建立的统计依赖关系之间的偏差来区分异常。如第一节所述,这种方法需要多样化的正常样本进行有效训练。其理念是训练良好的模型能够有效涵盖广泛的正常事件。然而,现实场景中存在复杂多样的时空模式,这给训练集涵盖所有可能的正常分布带来了挑战。此外,测试集中的负样本可能会引入与标签无关的域转移,如行人步行速度或服装颜色的变化。这些转移可能导致传统方法的性能下降。为了评估我们提出的CRCL在有限正常事件情况下进行VAD的能力,我们在CUHK Avenue [37]上进行了案例研究。我们研究了CRCL、Basic方法[11]和STM - AE [11]在只有部分训练样本可用的情况下的性能,结果见表VII。值得注意的是,即使缺少一小部分(≤20%)训练数据,我们的CRCL仍能保持稳定的性能,AUC仅下降0.6%。这意味着我们的方法能够有效地推断测试样本中的潜在正常模式,并熟练地检测新的异常。即使在更具挑战性的情况下,即缺少一半训练集时,所提出的CRCL18和CRCL50网络的帧级AUC分别下降2.3%和1.9%,低于Basic50的4.2%和STM - AE [7]的6.6%。这种轻微的性能下降表明,我们的CRCL对不同正常事件中出现的与标签无关的域转移更具弹性,并且在只有有限正常事件可用于训练时仍能保持稳定的性能。
六、结论
在本文中,我们从因果关系学习的角度重新思考无监督视频异常检测任务,以解决深度表示学习中长期存在的挑战,即建立的统计依赖关系无法应对正常事件中与标签无关的数据偏差,且无法检测现实世界中多样的轻微异常。所提出的因果表示一致性学习利用因果原理探索视频常态的潜在因果关系,并通过表示一致性检测异常,明确指出场景偏差的负面影响,并提出场景去偏学习以捕捉常态内生特征,辅助因果启发的常态学习挖掘因果因素。在三个公共基准数据集上进行的大量对比实验验证了CRCL的有效性及其相对于先前各种工作的优越性,尤其是在处理多场景数据集时。消融研究和扩展讨论进一步表明,因果常态学习能够抵抗场景偏差等与标签无关的数据偏差,并在多场景和有限训练样本等实际场景中保持令人满意的性能,为VAD在现实世界应用中的部署提供了解决方案。基于视频的异常检测系统通过其广泛的感知覆盖范围和实时非接触式获取时空信息具有独特优势。所提出的CRCL框架在具有多样场景和有限训练数据可用性的具有挑战性的现实场景中展示了卓越的检测性能和增强的鲁棒性,显著提升了这些能力。因此,它特别适合部署在关键任务应用中,如智能交通系统、自动化制造设施和智慧城市基础设施,在这些应用中,可靠的异常检测直接有助于运营安全和效率。未来,我们将探索多视图、多模态VAD的潜在因果机制,并开发一种能够应对任意工作环境和数据模态的通用异常检测方案。
更多推荐



所有评论(0)