自动驾驶数据革命：半自动Occupancy标注如何定义3D感知新时代

1. Occ 网格图

鸟瞰图（BEV）作为当前主流的感知模式，具备描述环境的绝对尺度和无遮挡的优势，同时为多模态数据提供了统一的特征表示，便于众多下游任务的使用。然而，BEV感知缺乏高度信息，无法提供完整的3D场景表示。针对这一问题，2022年Tesla AI Day上，Elon Musk提出了将Occupancy（占据网格）应用于算法流程中，以捕捉真实世界的密集3D结构。Occupancy感知技术通过体素化世界推断每个体素的占用状态，具备对开集对象、不规则形状车辆和特殊道路结构的强大泛化能力。与BEV相比，Occupancy感知具有3D属性，使其更适用于3D目标检测、3D语义分割和3D跟踪等下游任务。

尽管Occupancy感知自提出以来已进入第三个年头，但它在自动驾驶领域尚未完全成为主流。其中一个主要原因是生成Occupancy标签数据的成本高昂。为此，我们开发了一套半自动Occupancy标签标注流程，显著降低了标注成本。

2. 4D Occ标签标注流程

Fig. 1. 4D OCC标签标注流程，OmniHD-Scenes: A Next-Generation Multimodal Dataset for Autonomous Driving (Zheng et al., 2024)

Step1 场景重建

自从Tesla引入4D注释的概念以来，它已经成为数据闭环过程的关键组件。这种标注技术利用位姿来建立时间关系，并使用密集点云重建来表示一段时间内的交通参与者和道路信息。与传统的3D标注方法相比，重建的地图更加密集，表现出更强的全局一致性，提供增强的视觉效果，显著减少重复任务，并利用更多的先验信息来确保数据的可靠性。利用4D工具生成数据可以大大降低数据生产成本，提高数据质量。根据数据来源的不同，我们可以支持基于点云的重建和基于图像的重建两种方式。

2.1. 基于点云的重建

基于点云的重建依赖于激光雷达等传感器获取的三维点云数据。每个点的x、y、z坐标和强度（intensity）数据反映了物体表面的空间位置信息。点云数据密度高、精度高，能够直接反映物体的三维几何结构和表面材质。通过每帧点云的位姿数据（平移向量和旋转矩阵），可以将不同时刻的点云数据转化为坐标系统一的全局点云。

2.2. 基于图像的重建

基于图像的重建则利用相机拍摄的二维图像序列来恢复三维场景。这类方法通过从不同视角拍摄的图像中提取特征点，并利用立体匹配、运动恢复结构（SfM）等技术计算相机的姿态和场景的三维结构。最终，通过多视图立体视觉（MVS）等技术生成稠密的全局点云。

无论是基于点云还是图像，场景重建都需要高质量的数据和先进的算法支持。点云数据需要保证足够的密度和精度，而图像数据则需要覆盖场景的不同视角，并确保图像清晰度和光照一致性。随着深度学习技术的发展，基于神经网络的场景重建方法取得了显著进展，能够从更少的数据中重建出更逼真的三维场景。

2.3. 点云质量提升

原始点云数据往往存在密度不足、噪声干扰等问题，影响后续处理和分析。提升点云质量是场景重建和三维感知的关键步骤，主要包括点云密度提升和点云杂点去除两个方面。

1. 点云密度提升

点云密度提升旨在增加点云数据的密度，使其更完整地描述物体表面细节。常用的方法包括：

基于插值的方法：如双线性插值、三次样条插值等，利用已知点云的局部几何信息估算新的点云数据，填补稀疏区域。

基于深度学习的方法：如PointNet++、PCT等网络模型，利用神经网络学习点云的局部特征和全局结构，预测缺失的点云数据。

2. 点云杂点去除

点云杂点去除旨在消除点云数据中的噪声点和离群点，提高点云的精度和可靠性。常用的方法包括：

基于统计的方法：如半径滤波、统计离群点去除等，根据点云局部邻域的统计特征识别并去除噪声点。

基于几何的方法：如平面拟合、曲面拟合等，利用点云的几何结构信息识别并去除不符合几何特征的噪声点。

基于深度学习的方法：如PointCleanNet、DenoiseNet等网络模型，利用神经网络学习点云的噪声分布和特征，自动识别并去除噪声点。

通过以上技术手段，可以有效提升点云数据的密度和质量，为后续的场景重建、目标识别、语义分割等任务奠定坚实基础。

Fig. 2. 4D 重建结果

Step2 动态物标注

在完成单帧点云数据的全局重建后，首先需要区分出动态目标物。由于每帧的动态目标物在重建后会相互重叠，形成多条动态物行驶轨迹，这些重叠的轨迹会给标注员的语义标签标注带来困难。为了解决这一问题，我们支持将全局点云拆分为单帧，并基于交互式标注算法对动态目标物进行标注。

针对一个动态物序列，我们根据其运动轨迹和行驶距离选取关键帧，并在关键帧中标注对应的3D框。随后，通过算法自动计算并生成其余帧的3D框。例如，在一个60帧的序列中，只需要5个关键帧。对于这些选定的关键帧，我们首先使用预训练的3D检测模型生成初始边界框。这些最初的3D框随后被手动调整并被分配唯一的标识符。

随后，对于剩余的关键帧，利用位姿信息和来自所选关键帧的标注3D框预测插值3D框。采用编码器-解码器架构的refine模型迭代地细化这些预测3D框，基于目标物体的点云配准置信度和运动参数，例如加速度和角速度，评估每次迭代的优化。

只有当置信度和运动参数都满足预定义的阈值时，优化的3D框才被添加到最终的标注集中，否则，保留具有最高置信度的3D框。最后，该算法输出所有帧的3D标注对象。

与传统的2D-3D融合标注方法相比，该方案只需标注少量关键帧即可完成整个动态物序列的标注，显著提升了标注效率。此外，通过利用前后帧点云的信息，我们能够统一序列中动态物的尺寸，并平滑3D框的运动轨迹。

在标注过程中，3D框内的点会被赋予对应的语义标签。去除框内点后的静态点云将进入下一流程，做进一步的标注处理。

Step3 语义标注

在完成动态物的标注后，接下来就可以对全局点云中的静态目标直接标注语义信息。针对传统标注方法效率低下的痛点，我们开发了一套基于交互式预标注的全局点云语义分割方案，应用了点云交互式语义分割预标注算法，旨在高效且准确地为点云数据赋予语义标签。

具体而言，标注人员通过点击全局点云中的目标物体，触发算法对该目标进行自动分割。算法基于点云的空间分布和几何特征，能够快速识别并分割出目标物体。随后，算法通过相似性匹配，自动为全局点云中所有与目标物体相似的点云目标赋予相同的语义标签。这一过程不仅大幅提升了标注效率，还确保了标签的一致性。

然而，由于点云数据的复杂性和场景多样性，算法生成的结果可能存在一定的误差。因此，标注人员需要对算法生成的标签进行人工精修。精修过程中，标注人员逐一检查每个目标物体的边界和语义标签，确保其准确性和完整性。最终，经过人工精修的全局点云数据将具备完整的语义信息，为后续的Occupancy标签生成奠定基础。

相较于传统的单帧点云标注方法，我们的方案在统一的时空下一次性完成整个场景的标注，减少了重复标注，显著提升了效率。与常规的4D语义分割标注流程相比，我们的方法通过少量点击即可同时分割出场景中所有同类目标，大幅降低了工作量，同时确保了标注质量和准确度。

Step4 Occ标签生成

在完成全局点云的语义标注后，下一步是生成Occupancy标签。Occupancy标签用于描述三维空间中物体的占据情况，广泛应用于自动驾驶、机器人导航等领域。Occupancy标签的生成基于已标注的全局点云数据，通过将点云数据转换为体素化表示，进一步提取每个体素单元的占据状态。

具体而言，Occupancy标签生成的过程包括以下几个步骤：

体素化处理：将全局点云数据划分为均匀的三维体素网格。每个体素单元代表空间中的一个固定大小的立方体区域。通过体素化处理，点云数据被转换为规则的体素表示，便于后续的占据状态计算。

占据状态计算：根据点云数据在体素中的分布情况，计算每个体素单元的占据状态。如果一个体素单元内包含点云数据，则该体素被标记为“占据”；否则，标记为“空闲”。这一过程能够有效反映三维空间中物体的占据情况。

语义信息融合：在占据状态计算的基础上，将全局点云中的语义标签信息融合到体素表示中。每个被标记为“占据”的体素单元不仅包含占据状态信息，还携带了对应的语义标签。这使得Occupancy标签不仅能够描述物体的占据情况，还能够提供物体的类别信息。

标签优化与验证：生成的Occupancy标签需要经过进一步的优化和验证，以确保其准确性和鲁棒性。优化过程可能包括去除噪声体素、填补空洞等操作；验证过程则通过人工或自动化手段检查Occupancy标签的质量，确保其符合实际场景的占据情况。

最终生成的Occupancy标签能够为自动驾驶、机器人导航等应用提供高精度的三维环境感知信息，为智能系统的决策和规划提供有力支持。

Gif. 1. OCC标签可视化

3. 结尾

通过半自动化的Occupancy标签标注流程，我们显著降低了标注成本，同时提升了标注效率和质量。这一流程不仅适用于当前的自动驾驶技术，还为未来的3D感知任务提供了强有力的支持。随着技术的不断进步，Occupancy感知有望在自动驾驶领域发挥更大的作用。

整数智能信息技术（杭州）有限责任公司，起源自浙江大学计算机创新技术研究院，致力于成为AI行业的数据合伙人。整数智能也是中国人工智能产业发展联盟、ASAM协会、浙江省人工智能产业技术联盟成员，其提供的智能数据工程平台（MooreData Platform）与数据集构建服务（ACE Service），满足了智能驾驶（Automobile AI）、生成式人工智能（Generative AI）、具身智能（Embodied AI）等数十个人工智能应用场景对于先进的智能标注工具以及高质量数据的需求。