最近几年,放在摄像头上的深度学习研究,发展很蓬勃。相比之下, 激光雷达(LiDAR) 身上的学术进展并不太多。
可是,激光雷达采集的数据,有很多优点。比如空间信息丰富,比如光照不足也不影响感知,等等。
当然,也有缺点。激光雷达数据,缺乏RGB图像的原始分辨率、以及高效的阵列结构(Array Structure) 。并且,3D点云很难在神经网络里编码。
要是能把激光雷达和摄像头,变成一台设备就好了。
如何“淘汰”摄像头?
激光雷达厂商Ouster,是领域内独角兽Quanergy的前联合创始人Angus Pacala,出走之后建立的新公司。
△Ouster联合创始人兼CEO
去年11月,公司推出了OS-1激光雷达,想要从这里开始,打破激光雷达与摄像头的界限。
中心思想是,只要激光雷达的数据足够好,就算专为处理RGB图像而生的深度学习算法,也可以拿来用。
Pacala说,现在OS-1可以实时输出固定分辨率的深度图像(Depth Image) ,信号图像(Signal Image) 以及环境图像(Ambient Image) 。
这些任务都不需要摄像头的参与。
△高速相对运动中,容易产生果冻效应
数据层与数据层之间,是空间相关的。拍摄高速运动的物体,也不容易产生果冻效应(Shutter Effects) 。
另外,OS-1的光圈,比大多数单反相机的光圈要大,适合光照不足的场景。
团队还开发了光敏度很低的光子计数ASIC,在低光照的情况下采集环境图像。
△自上而下:环境、强度、范围图像,以及点云
设备可以在近红外波段捕捉信号与环境信息,获得的数据,跟普通可见光图像差不太多。
这样,分析RGB图像用的算法,也可以处理激光雷达的数据。
小伙伴们还可以用Ouster (刚刚进行了固件升级) 的开源驱动,把数据转换成360度的全景动态:
△动图有压缩
传感器输出的数据,不需要预处理,就是这样的效果。
数据跑一跑
就像刚才说的,只要数据够好,就可以用那些为摄像头开发的算法,来做深度学习。
把深度、强度和环境信息,编码成向量。就像RGB图像可以编码成红绿蓝通道一样。
所以,OS-1的数据质量究竟怎么样?
△数据跑得很开心
Pacala说,他们用过的算法,和激光雷达的合作都很愉快。
举个栗子,他们训练了一个像素语义分类器,来分辨可以行驶的道路,其他汽车,行人,以及自行车。
这里是旧金山,在英伟达GTX 1060上运行分类器,实时生成了这样的**语义分割**效果:
△语义分割:路是路车是车
这是团队做的第一个实现。
数据是逐像素的数据,所以能够无缝将2D翻译成3D帧,来做边框估计 (Bounding Box Estimation) 这类实时处理。
除此之外,团队还把深度、信号和周围环境分开,单独放进神经网络里去跑。
一个栗子,用了SuperPoint项目里预训练的神经网络,来跑强度和深度图像。
网络是在RGB图像上训练的,从来没接触过激光雷达/深度数据。初次见面,却一见如故:
△还是语义分割,只是单独跑了强度 (上) 和深度 (下) 数据
Pacala说,激光雷达测距,在隧道、高速公路这样的规则几何环境里,可能不是很开心;而视觉测距,会在缺乏**质地**变化、缺乏**光照**的情况下,无所适从。
OS-1用多模态的方法,把两者结合起来,疗效就不一样。
1 + 1 > 2,这大概就是Ouster想要表达的意思。
还不算真正上路
2015年年初,Angus Pacala离开Quanergy。
同年,Ouster在硅谷成立。
△傲视群雄
2017年12月,公司宣布完成2,700万美元A轮融资,并同时推出了售价3,500美元的OS-1。
脚步不算快,但也算找到了自己要走的路。
图像语义分割算法,初步肯定了他们的成果。
不过,融合了摄像头属性的激光雷达,搭载到自动驾驶车上会有怎样的表现,还是未知。
转载请注明出处。