如何评价比亚迪退出与百度自动驾驶技术的合作转向自己研发,比亚迪出于什么考量?
我来抛一个暴论:自动驾驶算法门槛没那么高。
比亚迪对行业的洞察真的深。
能判断上一代2D+CNN+高精地图算法成本过高,在这代BEV+Transformer+Occpuacy Network上可以也不难追赶,于是自建团队,开始做这套体系。
自动驾驶算法经历了巨大的变革
最近流行的自动驾驶算法,其理念来自于特斯拉2020年的改进,并2021年在AI Day上提出的BEV+Transformer,随后特斯拉在2021年的AI Day上提出Occpuacy Network,补完了这套自动驾驶算法体系。
这种算法利用Transformer算法(没错,就是ChatGPT里面的T),把摄像头、雷达的采集信息融合,实时构建鸟瞰视角的3D模型(B就是Bird的意思),相当于上帝视角开车——比如你在赛车游戏里面的第三方俯瞰视角——再结合AI对于周围运动物体的预测,实现自动驾驶。
——也因此对高精地图的需求大幅下降,因为可以实时生成地图,用SD Map就行
而传统的自动驾驶采用的是2D+CNN算法,存在较高的上限,用于高速NOA(辅助驾驶)可以,但在城市NOA里面捉襟见肘。
特斯拉是第一个提出来的,也是第一个抛弃传统2D+CNN算法的。
某种意义上讲,2D+CNN算法到BEV+Transformer算法,几乎相当于重写一遍。
也因此,从2021年开始,自动驾驶赛道,大家几乎重新站上了同一道起跑线。
这套BEV+Transformer+Occupancy Network算法也成为了行业共识。
在自动驾驶算法切换到BEV+Transformer的过程中,华为和小鹏的速度最快。
我们现在在各大媒体平台上能看见的问界M5智驾版中,华为自动驾驶的直播/录播/切片/段视频,都是基于这套方案。
华为的ADS1.0只解决了BEV的架构,到了ADS2.0解决了道路拓扑推理网络问题,也才真正进入这套城市NOA(辅助驾驶)领域。
小鹏也类似:
小鹏XNET是一种新一代的感知架构,它可以通过多相机和雷达收集数据,经过深度学习系统处理,实时生成3D场景地图和高精度地图,静态、动态感知能力大幅提升,无缝连接城市道路、高速和停车场等场景。小鹏XNET的网络中,会将多个摄像头的画面在BEV(鸟瞰视角)中通过Transformer进行融合,并输出目标物在动态和静态等多方面的信息,而动态XNET可以在视觉识别的基础上输出目标物的位置、姿态、尺寸、速度等信息,甚至可以预测目标轨迹,使规控的“博弈”能力大幅提升。
看,BEV+Transformer
当然,小鹏和华为的领先还有其他的算法、算力、数据标注等原因,在此不过多阐述。
不止是华为和小鹏,国内几乎所有企业都开始用这套算法。
换句话说,在这套算法体系下,比亚迪要追起来也不难
拿隔壁上汽的知己来说,实现城市NOA也就两年。
X品牌、N品牌,都算是在上个时代走了2D+CNN的弯路,百度某种意义上也是。
智己汽车智能驾驶首席科学家郭辉回顾了智己2年走完头部玩家9年智驾路的技术进化轨迹,已达到人类驾驶安全3.2倍的智驾产品用户体验;并公布了“未来3~5年智己汽车智驾产品落地路线图”,宣布将于今年10月份正式开启“IM AD城市NOA”公测,与全球头部玩家同步迈入“城市NOA时代”。
Momenta CEO曹旭东则详细解析“基于DDOD、DDLD、D.L.P.人工智能模型,IM AD智能驾驶将实现完全数据驱动,并在未来的3-5年实现绝大多数场景的自动驾驶”,迈向自动驾驶终局!
比亚迪对行业的洞察真的深。能判断上一代2D+CNN+高精地图算法成本过高,在这代BEV+Transformer+Occpuacy Network上可以也不难追赶,于是自建团队,开始做这套体系。