当前位置:首页 > 留学 > 正文

formotion(formotion怎么读谐音)

Aurora最近上市,市值超过100亿美元。其自动驾驶工程师团队超过1400人;曾经收购了一家激光雷达公司布莱克摩尔,采用了FMCW而不是TOF技术,还收购了一家激光雷达芯片公司Ours,也是激光雷达片上);基于FMCW技术的设计:当然,最著名的收购是优步·ATG团队(被称为“蛇吞象”)。

Aurora成立于2017年,创始人分别来自谷歌、优步和特斯拉,背景被认为是“根深蒂固、光芒万丈”。起初是为了无人驾驶出租车应用,但在过去一年里,它已经将商用卡车业务作为主营业务。

除了激光雷达技术和激光雷达芯片技术,极光的自动驾驶算法很少公开。最近在上市前的融资材料上公布了一些信息:

这是Aurora驱动程序平台的概述:软件、硬件、地图、数据服务和车辆。

这是对其全栈自动驾驶技术的概述:传感器、定位、地图、感知、规划、控制、仿真、线控。

这是对其激光雷达优点的介绍:远距离传感、抗干扰、同时测量速度和距离的能力。

提供仿真测试和数据回放原理图:减少路测,运动规划仿真成本比路测降低2500+倍。一个小时的模拟测试相当于5万次车辆路试,其中可以模拟225万次无保护左转。

高清地图制作极光图集:几乎实时更新,制图过程大规模并行。

最后,正在开发的Autopilot 2.0系统与Autopilot 1.0系统的对比如下:

我以前在CVPR工作& # 39;21号工作坊邀请报告介绍了极光的两个工作:

工作主题之一是“将感知与运动规划联系起来”

另一个主题是“预测对运动规划的价值建议”

其实这两篇报道都提到了极光收购的优步ATG团队发表了一些文章,从中可以探究其技术的细节(注:优步ATG在多伦多的原分公司不属于极光,其首席科学家已经开了一家自动驾驶公司Waabi,其主要应用场景也是选定的商用卡车!),相关论文介绍如下:

1“激光流:有效的和概率性的物体检测和运动预测”

原来,优步·ATG匹兹堡小组在2020年10月15日上传了arXiv。

提出了一种基于激光雷达的三维目标检测和运动预测的新方法LaserFlow。在这种方法中,激光雷达的距离视图(RV)用于显示在传感器的整个范围内没有BEV的体素化或数据压缩。提出了一种多扫描融合结构,直接从深度图像中提取和融合时域特征。此外,受课程学习的启发,提出了一种学习未来轨迹概率分布的技术。

它是激光雷达的输入距离数据序列和不确定轨迹输出的一个例子:a)激光雷达的输入距离数据序列和输出不确定轨迹(BEV)

(一)

(二)

如图,建议的网络架构:提取多扫特征,检测和预测运动目标。

在多扫描架构中,特征提取独立于每个激光雷达在其原始视图中的扫描。每个扫描特征通过特征转换器学习从原始坐标系到全局坐标系的特征变换。先前的扫描,扭曲到当前的扫描图像,并连接在一起,这作为一个变压器网络;;这个多扫描特征图被输入到主干网络中,以检测目标并估计其运动。

给定多扫描激光雷达数据,模型的目标是预测所有轨迹的概率。对于距离图像中的每个点,预测一组类别概率,即确定该点落在哪个目标上,输出三维目标框的尺寸,同时输出目标的位移矢量、旋转角度和不确定度得分。最后,通过近似mean-shift算法将激光点云预测的轨迹聚类成一个对象。

端到端训练的损失项目包括焦点损失的分类和K-L散度的回归;

其中KL散度定义为

KL散度的梯度计算是为了重新衡量损失和估计不确定性:

通过不确定性的历程学习,可以保证前期的预测在后期得到修正。

实验结果如下:基准方法包括

1. FaF(“Fast and furious: Real time end-to-end 3D detection, tracking and motion forecasting with a single convolutional net,” ,CVPR,2018)2. IntentNet (“IntentNet: Learning to predict intention from raw sensor data,” CoRL, 2018)3. NMP (“End-to-end interpretable neural motion planner,” CVPR,2019)4. SpAGNN (“Spatially-aware graph neural networks for relational behavior forecasting from sensor data,” arXiv:1910.08233, 2019 )

2“地图自适应的基于目标的轨迹预测”

原来,优步·ATG匹兹堡小组在2020年11月13日上传了arXiv。

提出了一种多模态长期车辆轨迹预测方法GoalNet。该方法根据在丰富的环境地图中捕获的车道中心线,为每辆车生成一组建议的目标路径。这些在运行时生成并动态适应场景的路径被用作空域锚来预测一组基于目标的轨迹和类别在这些目标上的分布。这种方法可以直接模拟交通参与者的目标导向行为,释放更精确的长期预测的潜力。在大规模内部驾驶数据集和公共数据集nuScenes上的实验结果表明,该模型可以更好地扩展到全新城市的道路场景。

下图显示了基于目标的运动的轨迹的双重性。两个不同的场景,每个场景都有一个感兴趣的参与者。在图(a)中,基于目标的轨迹获得了高概率(98%),因为目标为参与者的运动提供了很好的解释。在图(B)中,因为候选目标路径不能完全解释参与者的当前运动,所以比图(a )( 2%)更高的概率(27%)被分配给基于运动的轨迹。

(一)

(二)

在这两种情况下,只为每个参与者提供一个建议的目标路径,这意味着模型的最简单变体将生成两个轨迹预测:一个基于目标的轨迹使用目标路径作为空域锚,另一个基于运动的轨迹使用参与者的前进方向作为参考方向。这些例子表明,当目标路径有意义时,可以使用该模型,但当没有目标可以完全解释参与者的当前运动时,它也可以学习退回到基于运动的预测。

模型GoalNet,其框架概述如图所示,包括三个部分,即(1)目标提议:基于局部地图几何,为每个参与者提出一组目标;(2)编码器模块:该模块对参与者状态和场景上下文进行编码;(3)图网络模块:利用图网络进行基于编码特征的预测。

在图网络中,每个图包含两种类型的节点:单个参与者节点A和多个目标节点GJ;图的有向边Ej始于每个目标节点,止于参与者节点。给定获得的节点和边表示,可以从参与者-目标边预测基于目标的轨迹和概率,并且可以从参与者节点预测无目标的轨迹和概率。

训练模型的分类项和回归损失项是:

实验结果如下:基准算法为

1. MTP(“Multimodal trajectory predictions for autonomous driving using deep convolutional networks”,ICRA,2019 )2. MultiPath(“MultiPath: Multiple probabilistic anchor trajectory hypotheses for behavior prediction”,ICRL,2020)3. CoverNet(“CoverNet: Multi- modal behavior prediction using trajectory sets”,CVPR 2020)。

如图所示,左列显示了感兴趣的参与者的真实未来轨迹(绿色),随后的列显示了从球门网(蓝色)、MTP(黄色)和多路径(粉红色)预测的轨迹。对于所有方法,轨迹概率被编码为α不透明度值。对于球门网,目标路径显示为红色。

3“RV-fuse net:基于距离视图的时间序列激光雷达数据融合,用于联合三维物体检测和运动预测”

2021年3月23日,原优步·ATG匹兹堡团队、奥罗拉和Motional匹兹堡团队的成员上传了arXiv。

提出了一种直接从时间序列激光雷达数据进行联合探测和轨迹估计的方法RV-FuseNet。其特征在于激光雷达数据的距离视图(RV)。过去,时间序列数据被投影到时域融合的共同视角,这与位置不同。对于BEV方法来说已经足够,但是对于RV方法来说,会导致信息丢失和数据失真,对性能产生不利影响。因此,提出了一种简单有效的新架构——增量融合,将每次RV扫描依次投影到下一个扫描角度,使信息损失最小化。

展示如图所示的RV-FuseNet概述:当激光雷达传感器旋转时,测量值不断产生。这些数据被分成“扫描”切片,每个切片包含一个完整的360°旋转测量;通过扫描时间序列提取每个点的时间-空特征。以距离视图(RV)为代表,特征学习基于骨干网;针对RV时域融合面临的挑战,提出了一种时序数据的串行组合方案。利用每个点的特征生成最终的类别检测及其轨迹,其中每个点被划分成实例,实例轨迹来自其点轨迹的平均值。最后,NMS用于消除重复检测和轨迹。

利用概率损失函数对模型进行端到端训练,其中损失函数被定义为分类项和回归项:

实验结果如下:基准方法是前面提到的SpAGNN和前面分析的Laserflow。

4“multi xnet:多类多阶段多模态运动预测”

原来,优步·ATG匹兹堡小组在2021年5月24日上传了arXiv。

提出了一种直接基于lidar传感器数据的端到端目标检测和运动预测方法MultiXNet。该方法处理多种类型的交通参与者,增加了联合训练的第二阶段轨迹细化步骤,并生成未来参与者运动的多模态概率分布,该分布包括多个离散的交通行为和校准连续位置的不确定性。

该方法基于SOA的前期工作IntentNet,如图所示:第一阶段对应IntentNet,即参与者检测及其单模运动预测,第二阶段对应多模和不确定性感知的预测细化。

模型的输入是lidar和地图的表示,其中地图的静态部分包括行驶路径、人行道、车道线和道路边界、交叉口、专用车道和停车位等。

这里训练损失函数定义如下:

位置不确定性被分解为沿航迹(AT)和跨航迹(CT)方向。这里,以AT为例,给出了训练损失项:

KLCT的损失项目定义类似。

在预测细化的第二阶段,在最终的未来轨迹和不确定性预测之前,RROI(旋转ROI)特征图必须通过轻量级CNN网络。网络联合训练的第一和第二阶段,第一阶段使用总损失L而第二阶段只有未来预测损失,第二阶段预测作为最终输出轨迹。第二阶段是完全可微的,所以在训练时,梯度流经第二阶段,进入第一阶段。

多模态预测输出有一个选项,可以用EM算法或者混合密度网络学习。多模态预测的损失函数包括一个轨迹损失项和轨迹模态概率的交叉熵,其中第一阶段只是单模预测。

参与者包括车辆、行人和自行车。骨干网计算出共享特征后,输出分成三组,一组是一组。在实验中发现,行人和自行车不需要采用第二阶段的多模态预测,但是第一阶段的单模态预测效果很好。

实验结果如下:基准方法是前面提到的IntentNet和SpAGNN。

5“传感器数据的多视图融合,用于改善自动驾驶中的感知和预测”

原来,优步·ATG匹兹堡小组在2020年10月27日上传了arXiv。

提出了一种端到端的目标检测和轨迹预测方法,该方法利用了激光雷达回波信号和相机图像的多视图表示。在这项工作中,提出了一种有效的通用融合方法,其模型建立在BEV网络上,融合一系列历史激光雷达数据和光栅化高清地图的体素化特征来执行检测和预测任务。作者扩展了该模型,并使用原始激光雷达信息的原始非定量表示来构建激光雷达的距离视图(RV)特征。将RV特征图投影到BEV,融合由lidar和HD图计算的BEV特征。融合的特征在单个端到端可训练网络中被进一步处理,并且最终的检测和轨迹被输出。此外,该框架以简单且计算高效的方式融合了RV中的激光雷达和相机。

图为多视图融合的架构:由两个主要部分组成,特征提取器和特征投影器;包括输入的相机图像、激光雷达点云以及高清地图的光栅图像;多视模型考虑了激光雷达输入的两个分支,一个是BEV,一个是RV;相机图像和激光雷达的融合是在RV分支进行的。

训练的损失函数如下:

实验结果如下:基准算法包括

1. Continuous fusion 即ContFuse(“Deep continuous fusion for multi-sensor 3d object detection”,ECCV‘182. 前面分析的MultiXNet

在实验中,多视角融合MV的方法记录为LC-MV(激光雷达+相机)和L-MV(仅激光雷达)。

是LC-MV(中)和MultiXNet(下)的对比如图:三个例子,包括阻挡车辆、阻挡行人和阻挡自行车,结果分别显示为预测值(蓝色)和真实值(红色)。

6 " MVFuseNet:通过激光雷达数据的多视角融合改进端到端物体探测和运动预测"

极光公司(被收购的原优步ATG团队)于2021年4月21日上传了arXiv。

这项工作MVFuseNet是一种端到端的方法,结合了时间序列激光雷达数据的目标检测和运动预测。大多数方法在单一视图中操作,即将数据投影到远处视图(RV)或鸟瞰视图(BEV)。相比之下,这种方法有效地使用RV和BEV来做时间-空特征学习,这是时域融合网络的一部分,也在一个骨干网络中做多尺度特征学习。此外,还提出了一种顺序融合方法,该方法有效地利用了时域融合网络的多个视图。

是MVFuseNet的概述如图:(a)-空RV和BEV的lidar数据多视时域融合学习时的特性;将数据从时间序列中的一次扫描投影到下一次扫描,以便聚集这些扫描;按顺序;(b)这些多视点time -空特征,结合地图特征,在多视点骨干中进一步处理,学习多尺度特征,最后做检测和运动预测。

formotion(formotion怎么读谐音)  第1张

下图是网络组件的概述:(a)利用所描述的每次扫描网络,在两个视图的时域融合中处理每次扫描。注意,在时域融合中,权重不是沿时间和视图共享的。(b)高清地图与网络一起处理,学习结合激光雷达特征的本地地图特征。(c)非对称U型网络提取BEV的多尺度特征。

在RV中,只有宽度维度被缩减像素采样,而第一个卷积层的跨度为零。网络的每一层表示为B,k×k,/s,C,N,其中B为块名,K为核大小,S为步长,C为通道数,N为块的重复次数。Conv表示卷积层,随后是批量归一化和ReLU。RES代表残余块。最后,使用双线性插值对样本进行采样。

实验结果如下:其中,基准方法有

1. 前面提到的SpAGNN;2. 前面提到的IntentNet;3. 前面分析的Laserflow;4. 前面分析的RVFuseNet;5. 前面分析的MultiXNet;6. 前面分析的多视角融合L-MV和LC-MV;7. LiRANet(“Liranet: End-to-end trajectory prediction using spatio-temporal radar fusion“. arXiv:2010.00731, 2020)

总而言之:

基于优步·ATG的工作,可以看出极光的感知-预测-决策规划是一个一体化的设计,考虑了模仿学习的数据驱动模型的发展。不确定性——感知,采用多模态、多智能体(车辆、行人、自行车)形式,感知的融合基本实现端到端的时间空融合(包括定位地图特征);在激光传感方面,被收购公司实现了FMCW技术的几大优势,自主研发的传感器及其芯片设计可以控制成本,保证系统的优化。此外,还开发了自主研发的高清地图数据服务、仿真和可视化技术。

0