近年来,借助智能系统实现汽车的自动驾驶成为科技届和产业界关注的热门领域。目前已经有处于实验阶段的无人驾驶汽车进行路测,而向驾驶员提供的智能辅助驾驶功能更是愈加丰富。对于这些车载智能系统来说,如何判断机动车、非机动车、行人混行的复杂路况,并作出对车内乘员和车外物体最为安全的驾驶判断,是至今仍在探讨的关键问题。可以说,解决这些问题最关键的技术是视觉感知,即如何通过计算机来自动识别物体。
为了评测目标(机动车、非机动车、行人等)检测、目标跟踪等计算机视觉技术在车载环境下的性能,德国卡尔斯鲁厄理工学院和芝加哥丰田技术研究所联合建立的一个算法评测平台KITTI,成为目前国际上公开的最大的自动驾驶场景下的计算机视觉算法评测数据集。不久前,华体会(中国)电子系副教授马惠敏率领的三维图像团队在KITTI国际评测中取得了优异的成绩,全部六项指标中的四项获得第一,两项获得第三。参加评测的还有来自百度公司、NEC美国研究院、斯坦福大学、加州大学洛杉矶分校、马克思·普朗克研究所(MPI)等机构的团队。
在物体检测这一竞赛项目上,参赛者使用计算机视觉算法检测出由车载相机所拍摄的城市街道上的车辆、行人和自行车,并且估计出它们的姿态朝向。用于性能测试的KITTI数据集包含了7千多张车载图像,单张图像上尺度不同的车辆数目最多可达十几辆,因此部分车辆会被其它车辆遮挡,而且远处的车辆在图像中尺度非常小(最小高度只有25像素),检测难度非常大。马惠敏研究组和多伦多大学合作提出了一种高效的三维物体提取方法,并结合深度卷积神经网络,依据立体图像推断场景中物体的位置和姿态。和传统的基于昂贵的激光雷达的自动驾驶识别算法不同,该研究组的算法仅依赖于普通的双目RGB摄像头即可完成高精度的目标检测和姿态估计,因此有望大大降低自动驾驶视觉系统的成本。他们的相关论文也已发表在机器学习与神经计算的顶级会议NIPS上。