instant-ngp中的在线学习：增量式场景更新方法

在传统的三维重建流程中，每次新增场景数据都需要重新训练整个模型，这不仅耗时且无法满足动态场景的实时更新需求。instant-ngp作为基于NVIDIA GPU的高性能神经网络生成框架，通过创新的在线学习技术，实现了增量式场景更新，让模型能够在保持原有知识的基础上快速整合新数据。本文将深入解析这一技术的实现原理与应用方法。## 核心技术：级联密度网格与动态更新机制instant-ngp的在线

田珉钟

1043人浏览 · 2026-02-03 08:05:34

田珉钟 · 2026-02-03 08:05:34 发布

instant-ngp中的在线学习：增量式场景更新方法

【免费下载链接】instant-ngp NVlabs/instant-ngp: 一个基于 NVIDIA GPU 的神经网络生成框架，支持多种神经网络模型和生成算法，适合用于实现高性能神经网络生成和应用。项目地址: https://gitcode.com/gh_mirrors/in/instant-ngp

引言：实时三维重建的挑战与解决方案

核心技术：级联密度网格与动态更新机制

instant-ngp的在线学习能力源于其独特的级联密度网格（Cascaded Density Grid）设计。这一机制通过多分辨率网格结构实现了对场景的分层表示，使得系统能够仅更新变化区域而不影响整体模型。

级联密度网格的工作原理

级联密度网格由多个不同分辨率的三维网格组成，每个网格负责表示场景中特定尺度的结构。如src/testbed_nerf.cu中的实现所示，系统通过mark_untrained_density_grid内核函数动态标记需要更新的网格单元：

__global__ void mark_untrained_density_grid(
    const uint32_t n_elements,
    float* __restrict__ grid_out,
    const uint32_t n_training_images,
    const TrainingImageMetadata* __restrict__ metadata,
    const TrainingXForm* training_xforms,
    bool clear_visible_voxels
) {
    // 遍历每个网格单元
    const uint32_t i = threadIdx.x + blockIdx.x * blockDim.x;
    if (i >= n_elements) return;

    // 计算当前单元的层级和位置索引
    uint32_t level = i / NERF_GRID_N_CELLS();
    uint32_t pos_idx = i % NERF_GRID_N_CELLS();
    
    // 计算体素在三维空间中的位置
    uint32_t x = morton3D_invert(pos_idx >> 0);
    uint32_t y = morton3D_invert(pos_idx >> 1);
    uint32_t z = morton3D_invert(pos_idx >> 2);
    
    // 检查该体素是否被至少一个训练视图可见
    uint32_t count = 0;
    const uint32_t min_count = 1;  // 至少需要1个视图可见
    
    for (uint32_t j = 0; j < n_training_images && count < min_count; ++j) {
        // 检查当前体素是否被第j个训练视图可见
        // ...可见性判断逻辑...
        
        if (可见) {
            ++count;
            continue;
        }
    }
    
    // 根据可见性标记体素是否需要训练
    grid_out[i] = (count >= min_count) ? 0.f : -1.f;
}

这段代码通过检查每个体素是否被至少一个训练视图可见，来决定是否将其标记为需要训练的区域。这种机制确保了只有新增数据可见的区域才会被更新，实现了增量学习的核心目标。

动态采样与网络更新

系统通过generate_grid_samples_nerf_nonuniform函数实现对标记区域的动态采样，优先对高重要性区域进行采样更新：

__global__ void generate_grid_samples_nerf_nonuniform(
    const uint32_t n_elements,
    default_rng_t rng,
    const uint32_t step,
    BoundingBox aabb,
    const float* __restrict__ grid_in,
    NerfPosition* __restrict__ out,
    uint32_t* __restrict__ indices,
    uint32_t n_cascades,
    float thresh
) {
    // 为每个采样点生成随机位置
    const uint32_t i = threadIdx.x + blockIdx.x * blockDim.x;
    if (i >= n_elements) return;
    
    // 随机选择一个层级进行采样
    rng.advance(i * 4);
    uint32_t level = (uint32_t)(random_val(rng) * n_cascades) % n_cascades;
    
    // 选择具有足够密度的网格单元
    uint32_t idx;
    for (uint32_t j = 0; j < 10; ++j) {
        idx = ((i + step * n_elements) * 56924617 + j * 19349663 + 96925573) % NERF_GRID_N_CELLS();
        idx += level * NERF_GRID_N_CELLS();
        if (grid_in[idx] > thresh) break;
    }
    
    // 在选定单元内生成随机位置
    uint32_t pos_idx = idx % NERF_GRID_N_CELLS();
    uint32_t x = morton3D_invert(pos_idx >> 0);
    uint32_t y = morton3D_invert(pos_idx >> 1);
    uint32_t z = morton3D_invert(pos_idx >> 2);
    
    vec3 pos = ((vec3{(float)x, (float)y, (float)z} + random_val_3d(rng)) / 
               (float)NERF_GRIDSIZE() - 0.5f) * scalbnf(1.0f, level) + 0.5f;
    
    out[i] = {warp_position(pos, aabb), warp_dt(MIN_CONE_STEPSIZE())};
    indices[i] = idx;
}

这种非均匀采样策略确保了系统能够根据当前模型状态动态调整采样密度，重点关注需要更新的区域。

实现流程：从数据输入到模型更新

instant-ngp的在线学习流程可以分为四个主要阶段：数据预处理、视图可见性分析、动态采样与训练、模型融合与优化。

1. 数据预处理与相机位姿估计

新增的图像数据首先通过scripts/colmap2nerf.py处理，该脚本利用COLMAP估计相机位姿并生成训练所需的变换矩阵。处理后的图像数据和相机参数被存储在data/nerf/目录下，如示例狐狸数据集data/nerf/fox/所示。

2. 视图可见性分析

系统通过mark_untrained_density_grid内核函数分析新增视图可见的场景区域，标记需要更新的体素。这一步骤通过检查每个体素是否至少被一个新增相机视图可见来实现，如代码中第128-157行所示：

for (uint32_t j = 0; j < n_training_images && count < min_count; ++j) {
    const auto& xform = training_xforms[j].start;
    const auto& m = metadata[j];
    
    if (m.lens.mode == ELensMode::FTheta || m.lens.mode == ELensMode::LatLong || 
        m.lens.mode == ELensMode::Equirectangular) {
        // 特殊镜头模式默认可见所有内容
        ++count;
        continue;
    }
    
    for (uint32_t k = 0; k < 8; ++k) {
        // 检查体素角点是否在相机前方
        vec3 dir = normalize(corners[k] - xform[3]);
        if (dot(dir, xform[2]) < 1e-4f) continue;
        
        // 检查体素角点是否投影到图像平面内
        vec2 uv = pos_to_uv(corners[k], m.resolution, m.focal_length, xform, m.principal_point, vec3(0.0f), {}, m.lens);
        
        // 验证投影是否有效
        Ray ray = uv_to_ray(0.0f, uv, m.resolution, m.focal_length, xform, m.principal_point, vec3(0.0f), 0.0f, 1.0f, 0.0f, {}, {}, m.lens);
        if (distance(normalize(ray.d), dir) < 1e-3f && uv.x > 0.0f && uv.y > 0.0f && uv.x < 1.0f && uv.y < 1.0f) {
            ++count;
            break;
        }
    }
}

3. 动态采样与网络训练

标记完成后，系统使用generate_grid_samples_nerf_nonuniform函数对标记区域进行采样，并通过神经网络更新这些区域的密度值。采样策略根据当前网格密度值进行自适应调整，优先采样高梯度区域。

4. 指数移动平均更新

为了平滑更新过程并避免过拟合新数据，系统采用指数移动平均(EMA)方法更新密度网格：

__global__ void ema_grid_samples_nerf(
    const uint32_t n_elements, float decay, const uint32_t count, 
    float* __restrict__ grid_out, const float* __restrict__ grid_in
) {
    const uint32_t i = threadIdx.x + blockIdx.x * blockDim.x;
    if (i >= n_elements) return;
    
    float importance = grid_in[i];
    
    // 使用最大值而非EMA以捕捉细小特征
    float prev_val = grid_out[i];
    float val = (prev_val < 0.f) ? prev_val : fmaxf(prev_val * decay, importance);
    grid_out[i] = val;
}

这段代码实现了一种特殊的EMA更新策略，通过保留最大值来确保细小特征不会被平滑操作丢失，这对于保持场景细节至关重要。

应用示例：动态场景重建

为了展示instant-ngp的在线学习能力，我们可以使用提供的狐狸数据集进行增量更新实验。数据集位于data/nerf/fox/目录下，包含46张狐狸不同角度的照片和对应的相机位姿文件transforms.json。

增量更新步骤

初始训练：使用部分图像（如前20张）进行初始训练，建立基础模型。
新增数据：向数据集添加新的视角图像。
运行在线更新：系统自动检测新增图像并更新对应区域的模型。

通过比较更新前后的渲染结果，可以清晰看到模型如何在保留原有信息的基础上整合新视角数据。这一过程无需重新训练整个模型，大大节省了计算资源和时间。

性能优化：减少计算开销的关键技术

instant-ngp的在线学习能力不仅体现在算法设计上，还得益于多种硬件优化技术，使其能够在普通GPU上实现实时更新。

网格压缩与位字段表示

为了减少内存占用并加速可见性检查，系统将密度网格压缩为位字段表示：

__global__ void grid_to_bitfield(
    const uint32_t n_elements,
    const uint32_t n_nonzero_elements,
    const float* __restrict__ grid,
    uint8_t* __restrict__ grid_bitfield,
    const float* __restrict__ mean_density_ptr
) {
    const uint32_t i = threadIdx.x + blockIdx.x * blockDim.x;
    if (i >= n_elements) return;
    
    uint8_t bits = 0;
    float thresh = std::min(NERF_MIN_OPTICAL_THICKNESS(), *mean_density_ptr);
    
    NGP_PRAGMA_UNROLL
    for (uint8_t j = 0; j < 8; ++j) {
        bits |= grid[i * 8 + j] > thresh ? ((uint8_t)1 << j) : 0;
    }
    
    grid_bitfield[i] = bits;
}

这段代码将8个体素的可见性状态压缩为一个字节，显著减少了内存占用并加速了后续的光线追踪过程。

层级化光线步进

在光线追踪过程中，系统使用层级化步进策略，根据当前网格层级动态调整步长：

__device__ void advance_pos_nerf(
    NerfPayload& payload,
    const BoundingBox& render_aabb,
    const mat3& render_aabb_to_local,
    const vec3& camera_fwd,
    const vec2& focal_length,
    uint32_t sample_index,
    const uint8_t* __restrict__ density_grid,
    uint32_t min_mip,
    uint32_t max_mip,
    float cone_angle_constant
) {
    // ...省略部分代码...
    
    float cone_angle = calc_cone_angle(dot(dir, camera_fwd), focal_length, cone_angle_constant);
    
    float t = advance_n_steps(payload.t, cone_angle, ld_random_val(sample_index, payload.idx * 786433));
    t = if_unoccupied_advance_to_next_occupied_voxel(
        t, cone_angle, {origin, dir}, idir, density_grid, min_mip, max_mip, render_aabb, render_aabb_to_local
    );
    if (t >= MAX_DEPTH()) {
        payload.alive = false;
    } else {
        payload.t = t;
    }
}

这种自适应步进策略根据光线与场景的交互情况动态调整采样密度，在保证精度的同时最大限度减少了采样点数量。