自动驾驶下半场的“入场券”_贝博ballapp在线-BB贝博ballbet网页登录

电机定子生产线

自动驾驶下半场的“入场券”

来源：ballbet贝博在线作者：BB贝博ballbet网页登录时间：2024-06-18 11:59:01 浏览：11

　　自动驾驶战争的上半场拼的是硬件和算法，下半场拼的则是数据和将数据点石成金的能力，即数据闭环能力。

　　然而，笔者在跟业内人士的交流中了解到，目前，通过量产车大规模采集数据来支持自动驾驶系统迭代升级的设想尚未实现。有的公司尚未搭建好这样一套数据闭环的流程；有的公司虽然搭建好了流程，也已经采集了一些数据，但是由于数据闭环系统还不够先进，因而尚未将数据很好地用起来。

　　传统的自动驾驶数据闭环，存在着大量不够高效的部分。例如，几乎每家公司在数据标注环节都需要依靠“人海战术”，需要依靠人工一个个地对采集回来的数据做场景分类等。

　　幸运的是，我们处在一个技术快速更新的时代，随着深度学习技术的发展，尤其是，随着大模型的潜能逐步得到释放，人们很欣喜地发现，数据闭环中的很多环节都可以实现自动化或者半自动化，效率也会显著提升。

　　由于参数量大带来的容量优势，大模型的性能和泛化能力相比小模型显著提高。在数据预处理、数据标注等传统数据闭环中需要消耗大量人力且效率低下的环节，大模型的表现都可圈可点。很多公司都在积极探索，希望将大模型运用于数据闭环从而加速算法迭代。

　　大模型，或将助力数据闭环步入2.0时代（自动化程度低的时代可以称之为数据闭环“1.0”时代），从而影响到自动驾驶下半场的竞争态势。

　　然而，训练大模型需要大量的数据以及极高的算力，对底层的硬件设施以及AI研发平台都有很高的要求。

　　特斯拉为了打造一套效率高的数据闭环系统，还自研了DOJO超算中心，目前，特斯拉的Autopilot系统已收集了超过20.9亿公里的路采数据。在某种程度上，在数据闭环系统上的投入，是特斯拉得以在自动驾驶研发上大幅领先的原因之一。

　　然而，特斯拉这种做法的投入也是巨大的。据悉，2024年，特斯拉在DOJO超算上的投入将超过10亿美金。在国内，有这个财力的公司屈指可数。

　　那么，对国内的主机厂和自动驾驶公司来说，一个更可行的选择就是，上云，借助于云厂商开放出来的大模型能力、算力、工具链等基础设施及开发平台，快速步入数据闭环2.0时代。

　　尤其是，假如云厂商具备全栈自研能力，能提供一整套基础设施，那么主机厂和自动驾驶公司在使用时，就无需考虑不同公司提供的工具接口不一致等问题，可以减少很多适配的工作，从而进一步提高开发效率。

　　数据闭环1.0时代，人们还没有准备好应对自动驾驶系统研发对大量数据的需求，各个模块的自动化程度不够高，效率也不够高。

　　数据闭环2.0时代需要一套能快速处理大量数据的系统，让数据在系统内更快地流转，提高算法迭代的效率，让车越开越聪明。

　　在7.21华为云智能驾驶创新峰会上，华为云自动驾驶开发平台重磅发布，在盘古大模型的加持下，该平台在corner case的解决能力、数据预处理能力、数据挖掘能力、数据标注能力方面，相比于传统的数据闭环体系，都表现出了明显提升。

　　传统解决corner case的方式主要是通过实车路采尽力采集到足够多的相关数据，然后训练模型，从而让模型具备应对能力。这种方式成本较高而且效率较低，更何况，很多特殊场景出现的频率特别低，实车很难采集到。

　　近年来，人们发现可以采用NeRF技术做场景重建，然后，通过调整一下参数如改变视角、改变光照、改变车辆行驶路径的方法来模拟一些在真实世界里出现频率较低的场景（合成数据），作为实车路采数据的补充。

　　早在2022年初，Waymo便开始将基于NeRF技术生成的合成数据用于自动驾驶的算法训练中。

　　今年CVPR的highlight paper之一UniSim: A Neural Closed-Loop Sensor Simulator也是探索用NeRF技术做场景重建。在这篇文章中，来自无人驾驶卡车公司Waabi的作者将场景分为三部分：静态背景（如建筑、道路和交通标志）、动态物体（如行人和汽车）和区域外物体（如天空和非常远的道路），然后采用NeRF技术来分别建模静态背景和动态物体。

　　作者发现，采用NeRF技术重建的场景不仅高度逼真，而且方便扩展，研发人员只需采集一次数据就可以做重建。

　　在国内，华为云基于盘古大模型开发的场景重建大模型也结合NeRF技术。该模型可基于采集的路采视频数据做场景重建（合成数据），普通用户很难用肉眼分清这些重建的场景跟真实场景有何区别。这些重建的场景数据作为真实路采数据的补充，可以用于提高感知模型的精度。

　　具体来说，场景重建大模型输入的是一段一段的路采视频，在模型对这些视频做场景重建后，用户可以编辑天气、路况以及主车的姿态、位置、行驶轨迹等，然后生成新的视频数据。

　　例如，用户可以将原始视频中的天气从晴天改为雨天，也可以将白天换成黑夜（如下图所示），还可以将宽阔平整的路面变成泥泞小道。

　　也就是说，用户可以通过编辑场景元素来生成更多数据，而无需全部依靠路采。尤其是，对于一些不太方便采集的数据，例如极端天气下的场景数据，用户可以采用场景重建的方式来生成。

　　我们拿场景重建的数据来训练感知算法时发现，这些数据确实对算法训练有帮助。同时，我们的大模型正在不断提高这些虚拟场景的覆盖度，争取让这些数据能够被更广泛地使用，从而让自动驾驶算法可以应对更多的corner case。

　　对corner case的解决能力提高，意味着自动驾驶系统在车辆行驶中的参与度提高，用户体验更好，最终可以带动自动驾驶的渗透率上升。

　　车端采集的数据一般需要经过预处理，然后再进入挖掘和标注流程。预处理的主要作用是给数据分类，去掉不需要的数据，保留重要场景的数据。

　　传统的采用人工回放来给数据分类的方式非常耗时，假如用大模型来理解视频的内容，自动给这些视频数据分类，就可以大幅提高工作效率。

　　用模型来给视频分类的难点在于，如何通过语义的方式解锁视频的场景，华为云基于盘古大模型开发的场景理解大模型可以对视频数据做语义理解然后分类。用户上传视频数据后，模型可以识别出关键信息，按照视频类别、出现的时间进行标记，如下图所示，同时支持组合检索。

　　据悉，此种方案已在某主机厂项目中落地。工程师仅需调用华为云提供的API就可以用场景理解大模型来完成给视频数据分类的工作。

　　在车辆将路采数据回传到云端后，工程师通常需要挖掘出价值较高的数据。传统的基于标签来挖掘长尾场景的方式一般只能分辨已知的图像类别。

　　2021年，OpenAI发布了CLIP模型（一种文字——图像多模态模型），该模型可以摆脱对图片标签的依赖，在无监督预训练之后将文本和图像对应，从而基于文本对图片进行分类。

　　这意味着，工程师可以采用这样的文字-图像多模态模型，用文字描述来检索drive log中的图像数据，例如，‘拖着货物的工程车辆’、‘两个灯泡同时亮着的红绿灯’等长尾场景。

　　根据笔者与业内人士交流得到的信息，一些自动驾驶科技公司已经开始基于CLIP来实现以文搜图，从而提高挖掘长尾数据的效率。

　　华为云基于盘古大模型开发了多模态检索大模型，多模态检索大模型除了可以实现以图搜图、以文搜图外，还可以以文搜视频。例如，工程师希望找到前车异常停止的视频片段，可以直接用“前车异常停止”来搜索相关的视频片段。

　　根据估算，头部自动驾驶公司每年大概要标注上百TB甚至是PB级的数据需要标注，标注成本高达上千万甚至上亿。

　　在实践中，工程师通常需要针对不同的场景训练不同的标注模型（比如，标注红绿灯的模型，不能用来标注车道线），重新训练的过程可能需要消耗大量的数据及算力，成本较高。

　　在盘古大模型的基础上，华为云开发了预标注大模型。借助预标注大模型，在面对新的场景时，工程师无需从头开始训练，仅需对基础模型做“微调”，就可以得到针对新场景的预标注大模型。

　　根据华为云工程师的介绍，针对不同类型的自动驾驶场景，预标注大模型仅需用少量数据（几百到几千张图片）做为期1-2周的训练就能达到较为理想的预标注效果。

　　并且，针对2D、3D标注任务，预标注大模型可以实现高精度标注。采用预标注大模型做预标注后，标注公司基本只需要再做一些质检，这样可以显著降低标注成本。

　　实际上，再通用的大模型，也不会是万能的。大模型的“大”，主要强调其在底层能力方面的通用性，而不是说它有能力解决“每一个细分场景的中每一个细节问题”。在具体落地的过程中，大模型往往要分多个层级，到最终的执行端，真正“干活”的可能是“中模型”，甚至是“小模型”。

　　最底层是L0级的基础大模型，它包括语言大模型、视觉大模型、多模态大模型、预测大模型、科学计算大模型等5个大模型。L0级基础大模模型对应的能力，类似于人的看、听、说、读、写、算、思等基础能力，是无论在哪个行业、无论干什么工作，都需要用到的。

　　在L0级模型的基础上，华为云针对不同行业开发了L1级的行业大模型，包括政务大模型、金融大模型、制造大模型、矿山大模型等。每个L1级行业大模型都跟特定的行业强耦合。

　　在L0级基础模型和L1级行业大模型的基础上，华为云还给细分场景的用户生成了一些解决特定问题的任务模型，即上图中的L2级场景模型。本文第一章提到的预标注大模型、场景重建大模型等都属于L2级场景模型。

　　除此之外，在L0级和L1级大模型的基础上，华为云给用户提供了模型开发套件，用户可以用自己收集的数据对L2级的场景理解模型做微调，得到自己的场景模型。

　　以场景理解大模型为例，用户可以直接调用华为云的API来使用场景理解大模型，也可以加入自有数据训练自己的场景理解大模型。

　　由此看来，华为盘古大模型3.0的进化是“双轮驱动”：一方面，华为云通过不断地收集公开数据让基础大模型学习通用知识，并且让行业大模型学习行业知识（据悉，华为云的每个行业大模型的训练数据都超过了500亿tokens)；另一方面，用户也可以不断地收集适用于自己面对的场景的数据，提高微调后的场景大模型解决特定问题的能力。

　　在这种机制下，已训练好的大模型，只需少量补充训练样本，就有可能快速迁移到新的场景，大大降低应用推广成本和门槛，提升使用效率。

　　目前，自动驾驶产业碎片化严重，即使是把范围缩小到数据闭环系统，我们也会看到，在整个生态中，不同的供应商占据着各自的一小部分。体现在研发上，就是数据格式多种多样、工具链的接口不一，主机厂和自动驾驶公司不得不做很多的适配工作，研发的协同效应较差。

　　如果能有一家供应商可以提供数据闭环工具链的全栈解决方案，那下游客户在使用大模型做数据闭环时就会轻松许多。

　　在国内，华为云就是极个别具备自动驾驶数据闭环工具链全栈自研能力的云厂商之一。除了给用户提供大模型的能力外，华为云也可以提供数智融合架构、ModelArtsAI开发生产线、昇腾AI云服务等一系列配套设施，用户可以在华为云的自动驾驶开发平台上同时实现数据加速、算法加速和算力加速。

　　在实际使用中，“数据孤岛”是困扰各位研发工程师的一大问题。数据孤岛问题包括但不限于数据格式不一致、工具链接口不一、工具分散在不同的平台导致协同困难等。

　　针对这些问题，华为云一方面尽力找到各家主机厂以及自动驾驶公司的需求“公约数”，将工具链打造得更加通用，省去很多适配工作；另一方面把数据生产线和AI生产线融合到一起，通过一个统一的原数据管理平台实现数据的无缝流转，在该平台。

上一篇：磁谷科技获得发明专利授权：“一种下一篇：2024年涂装产业现状与发展前景

WORLDWIDE

STRATEGIC SOLUTIONS