对于自动驾驶中的许多任务,从上到下,地图或鸟瞰图 (BEV) 看几个角度会更容易。由于许多自动驾驶主题仅限于地平面,俯视图是一个更实用的低维表征,导航更理想,可以捕捉相关的障碍和危险。对于独立驾驶等场景,语义分割 BEV 为了处理自由移动的对象和只访问一次的场景,地图必须作为瞬时估计生成。
从图像推断 BEV 地图需要确定图像元素与其在环境中的位置之间的对应关系。之前的一些研究指导了密度深度图和图像分割地图的转换过程,并扩展了隐藏分析深度和语义的方法。一些研究使用了相机的几何先验,但没有清楚地学习图像元素和 BEV 平面之间的相互作用。
在最近的一篇论文中,萨里大学的研究人员引入了自动驾驶的注意机制 2D 图像转换为鸟瞰图,提高了模型的识别准确性 15%。这项研究最近结束了 ICRA 2022 会议获得优秀论文奖。

论文链接:https://arxiv.org/pdf/2110.00966.pdf

这项研究将不同于以往的方法 BEV 转换视为一个「Image-to-World」转换的目标是学习图像中垂直扫描线(vertical scan lines)和 BEV 中的极射线(polar ray)对齐。因此,这种射影几何对网络来说是隐藏的。
研究人员采用对齐模型 Transformer 基于注意力的序列预测结构。利用其注意力机制,研究人员在图像中清楚地建模了垂直扫描线及其极性 BEV 成对相互作用的投影。Transformer 非常适合图像到 BEV 转换问题,因为它们可以推断出物体、深度和场景照明之间的相互依赖,从而实现整体一致性。
基于研究人员 Transformer 对齐模型嵌入到端到端学习公式中,以单目图像及其固有矩阵为输入,然后预测静态和动态语义 BEV 映射。
本文构建了从对齐模型周围的单目图像预测语义的系统结构 BEV 映射。如下图 1 所示,它包括三个主要组成部分:一个标准 CNN 用于提取图像平面上的空间特征的骨干;编码器 - 解码器 Transformer 将图像平面上的特征转换为 BEV;最后一个网络将被分割 BEV 特征解码为语义地图。


具体究的主要贡献是:
(1)用一组 1D 序列 - 序列的转换从图像中产生 BEV (2)构建有限数据高效 Transformer 网络具有空间感知能力;(3)公式与语言领域单调注意力的结合表明,知道图像中的一个点比知道上面的一个点更重要,虽然使用两者都会导致最佳性能;(4)展示轴向注意力如何通过提供时间意识来提高性能,三个大规模数据集中展示最新结果。实验结果
在实验中,研究人员对图像进行了几次评估: BEV 的转换作为 nuScenes 评估数据集中的转换问题的有效性;在单调的注意力下,对长序列水平上下文的有效性和极位信息进行评估(polar positional information)的影响。最后,将该方法与之相结合 nuScenes 、Argoverse 和 Lyft 数据集的 SOTA 比较方法。
消融实验
如下表 2 的第一部分所示,研究者比较了软注意力 (looking both ways)、回溯图像底部(looking down) 单调的注意力,图像顶部的可追溯性 (looking up) 单调的注意力。结果表明,从图像中的一个点向下看比向上看好。
沿着局部纹理线索——这与人类在城市环境中试图确定物体距离的方法是一致的,我们将使用物体与地平面相交的位置。结果表明,两个方向的观察都进一步提高了精度,使深度推理更具识别性。

上下文长序列水平的效用。此处的图像 - BEV 作为一组转换 1D 序列 - 因此,当整个图像转换为序列转换时,问题是 BEV 会发生什么?考虑到生成注意力地图所需的二次计算时间和记忆,这种方法的成本令人望而却步。然而,水平轴向注意力可以应用于图像平面特征,从而获得使用整个图像的上下文效益。借助图像线的轴向注意力,垂直扫描线中的像素现在具有长距离的水平,然后像以前一样通过 1D 序列之间的转换提供了长距离的垂直上下文。
如表 2 如中间部分所示,上下文合并长序列水平不会使模型受益,甚至略有不利影响。这说明了两点:首先,每个转换后的射线不需要输入图像的整个宽度信息,或者更确切地说,长序列上下文没有比前端卷积累的上下文提供任何额外的好处。这表明,使用整个图像进行转换不会提高模型的精度甚至超过 baseline 约束公式;此外,水平轴向注意力引起的性能下降意味着很难使用注意力训练图像宽度序列。可以看出,如果使用整个图像作为输入序列,训练将更加困难。
Polar-agnostic vs polar-adaptive Transformers:表 2 比较最后一部分 Po-Ag 与 Po-Ad 的变体。一个 Po-Ag 模型没有极化位置信息,图像平面 Po-Ad 包括添加到 Transformer 编码器中的 polar encodings,而对于 BEV 这些信息将添加到解码器中。在任何一个平面上添加 polar encodings 添加动态类比添加未知模型更有益。在两个平面上加入会进一步加强这一点,但对静态类的影响最大。
和 SOTA 方法的对比
研究人员将本文的方法与一些方法 SOTA 比较方法。 1 空间模型的性能优于当前压缩模型 SOTA 方法 STA-S ,平均相对改善 15% 。在较小的动态类别中,改进更为显著,公共汽车、卡车、拖车和障碍物的检测精度相对提高 35-45% 。

下图 2 定性结果也支持这一结论,该模型显示出更大的结构相似性和更好的形状感。这种差异可以部分归因于压缩的全连接层(FCL) : 当检测到小而遥远的物体时,大多数图像都是冗余的上下文。

此外,行人和其他物体经常被车辆挡住。在这种情况下,整个连接层倾向于忽略行人,而是保持车辆的语义。注意力方法显示了它的优点,因为每个径向深度都可以独立地注意到图像ーー如此,更深的深度可以使行人的身体可见,而此前的深度只可以注意到车辆。
下表 3 中 Argoverse 数据集的结果显示了类似的模式,其中本文的方法比较 PON [8]提高了 30% 。

如下表 4 本文的方法如下 nuScenes 和 Lyft 表现优于 LSS [9]和 FIERY [20]。在 Lyft 真正的比较是不可能的,因为它没有标准化 train/val 分割,得不到 LSS 使用的分割。

详情请参考原论文。







