最近在做一些关于高速视觉感知的课题,自己主要是将工作集中到了Event-camera的相关工作上来,一周内吧,也没读太多的文献,工作效率也不是特别的高。趁着周日将这周看的论文先整理一下。

主要的贡献

  1. 给出了一种CNN框架,能够处理事件相机数据
  2. 如何生成事件相机带有标签的数据集
  3. 比较采用不同事件相机数据的表现性能

创新点

  1. 崭新的事件相机数据编码方式,基于Xception,六通道,空间结合时间的网络输入。

    两个通道:正事件的直方图、负事件的直方图(Hist(x,y,1)Hist(x,y,+1)Hist(x,y,-1)、Hist(x,y,+1)->承载空间信息

    四个通道:正事件的均值、均方差、负事件的均值、均方差->承载事件轴信息,而不仅仅是时间戳信息

    M(x,y,p)=1Hist(x,y,p)i=1,tiWNtiδ(xi,x)δ(yi,y)δ(pi,p)M(x, y, p)=\frac{1}{\operatorname{Hist}(x, y, p)} \sum_{i=1, t_{i} \in W}^{N} t_{i} \delta\left(x_{i}, x\right) \delta\left(y_{i}, y\right) \delta\left(p_{i}, p\right)

    S(x,y,p)=i=1,tiϵWN(tiδ(xi,x)δ(yi,y)δ(pi,p)Mean(x,y,p))2Hist(x,y,p)1S(x, y, p)=\sqrt{\frac{\sum_{i=1, t_{i} \epsilon W}^{N}\left(t_{i} \delta\left(x_{i}, x\right) \delta\left(y_{i}, y\right) \delta\left(p_{i}, p\right)-\operatorname{Mean}(x, y, p)\right)^{2}}{\operatorname{Hist}(x, y, p)-1}}

    image-20210912195351251

  2. 用Cityscape所有数据集训练出来的CNN,对现有挑选出来的CityScapes打上标签,作为伪标签(论文中以此作为GT),以伪标签训练事件相机数据的网络。

数据集的获得

挑选DDD17数据集(事件相机、RGB相机同步)其中的一部分(高对比度、无过曝)作为标签数据集,以所有灰度图像跑出来的灰度模型去识别挑选出的灰度序列,得到的标签作为伪标签训练事件相机。这里它提出来:灰度图像语义分割得到了83%的MIoU,与最高的92%相比,证明了这种方式的可靠性。

这里鸿羽给了我一些指导,这种方式得到的数据集一般是没有问题的。但是也给我们提供了另外的一种思路:先去网络去学习边缘,因为本来我们的得到的边缘标签就是不精确的,也就无需考虑标签的置信度问题了,然后再根据边缘去学习分割

image-202109122337298

这里就是生成的Ev-Seg的数据集的标签,采用灰度图训练出来的CNN得到的标签。

对比

这里对比采用了两个指标,用来评估模型性能。

MIoU(y,y^)=1Cj=1Ci=1Nδ(yi,c,1)δ(yi,c,y^i,c)i=1Nmax(1,δ(yi,c,1)+δ(y^i,c,1))M \operatorname{IoU}(y, \hat{y})=\frac{1}{C} \sum_{j=1}^{C} \frac{\sum_{i=1}^{N} \delta\left(y_{i, c}, 1\right) \delta\left(y_{i, c}, \hat{y}_{i, c}\right)}{\sum_{i=1}^{N} \max \left(1, \delta\left(y_{i, c}, 1\right)+\delta\left(\hat{y}_{i, c}, 1\right)\right)}

Accuracy(y,y^)=1Ni=1Nδ(yi,y^i)\operatorname{Accuracy}(y, \hat{y})=\frac{1}{N} \sum_{i=1}^{N} \delta\left(y_{i}, \hat{y}_{i}\right)

分别对比了三种类型事件数据编码的模型性能,包括基本密度编码(Basic dense encoding)、时间密集编码(Temporal dense encoding),和本论文的六通道编码。

Input representation Accuracy(50ms) MIoU(50ms) Accuracy(10ms) MIoU(10ms) Accuracy(250ms) MIoU(250ms)
Basic dense encoding 88.85 53.07 85.06 42.93 87.09 45.66
Temporal dense encoding 88.96 52.32 86.35 43.65 85.89 45.12
Ours 89.76 54.81 86.46 45.85 87.72 47.56
Grayscale 94.67 64.98 94.67 64.98 94.67 64.98
Grayscale & Ours 95.22 68.36 95.18 67.95 95.29 68.26

image-20210913000151

不仅对比了不同编码方式的性能(这里是定量给出了指标),还对比了不同积分时间内的分割性能(这里只采用了可视化的方式,并没有定量地给出)。

image-20210913444477

论文指出,在不同的积分时间下,对应着不同的速度,该模型的性能依旧表现良好。

结论

Xception-based encoder-decoder用于处理事件相机数据的语义分割

为DDD17数据集打上标签

优缺点

缺点

事件数据无法捕捉静态信息

image-202109131254798

优点

在极度光照条件下,事件相机对于数据的捕捉更为敏感

image-20210911240880

个人总结

个人觉得,这篇文章比较新颖的点主要是在事件相机的编码方式,事件相机作为比较新颖的图像设备,采用的是与传统相机截然不同的数据存储方式。目前RGB图像的语义分割最常用的也是用的网络的方式进行训练,也是做到了很好的效果。可是对于事件相机的数据来讲,它无法直接放入到现有的这些网络当中,并且目前非常缺少对应的打好标签的事件相机数据集,这也是普遍存在的问题:语义分割训练的标签很大程度依赖于RGB相机分割出来的伪标签。

我个人目前想做的点在于,用事件相机数据去进行城市场景下的语义分割,就像Ev-Seg所作的这样,但是该论文更侧重的创新点在于六通道的编解码方式,以及以事件相机数据为输入的分割网络。我们计划采用RGB相机的数据进行标签标记,训练事件相机数据,最终实现对于事件相机数据的语义分割。这篇论文给我的提示点在于:

  1. 网络的输入部分可以做文章,是否可以结合RGB与Event作为训练网络的输入
  2. 事件相机数据如何应用