这支“90后”团队
教巡林机器狗更懂世界

日期：07-02

字号：大 中 小

版面：a0013版：潮新闻·寻新记上一篇 下一篇

安装上“超压缩具身世界模型”的“巡林机器狗” 受访对象供图
超压缩具身世界模型硬件

　　起点，是一片碎石路。目标，是寻找四处可能存在的可疑烟雾。没有遥控器递过来，没有护林员在旁边随行，全程无需任何人为干预——左转还是右转？直行还是绕道？遇上山坡和深坑怎么走？全凭它自己判断。

　　它就是“巡林机器狗”。

　　今年4月，它在杭州西湖边的山林里正式“上岗”。三个月来，它一次次自主规划巡检路线，稳稳避开所有危险地形，圆满完成了“消防巡林”的任务。

　　昨天，记者和“巡林机器狗”来了一次亲密接触，也解开了它的“慧眼”背后的秘密。

机器人学会自己“看路”

　　“会思考”的眼睛来自于北京大学信息技术高等研究院（以下简称“北大信研院”）团队打造的“超压缩具身世界模型”。它要做的事情，就是让机器人仅仅基于普通摄像头，就能实现看懂世界、推理世界，进而自主规划找到合适的移动路径。

　　“传统的机器人导航，仅适用于固定小区域场景。”北大信研院视觉智能实验室主任王钊介绍，它们需要提前用激光雷达或深度相机把整个环境扫描一遍，构建出高精度三维地图，然后按图索骥。

　　但传统建图导航方法有明显的局限。“建图只适用小场景，如扫地机器人、酒店送餐机器人，大区域场景很难建图。地图构建得再精细，也难以适应动态变化的现实世界，可能今天堆一堆碎石，明天积一滩水，地图说废就废，也无法实现与人的交互性导航，只能按照地图匹配的路线。而学会了看世界的机器人，就像我们第一次去陌生的公园。”王钊介绍，“它们的‘眼睛’看到画面，‘大脑’可以立刻做出判断，并把画面里每一块区域都快速推理出语义知识与物理规律，例如可通过性、位置预测性等，然后做出最优行为规划。”

既能走四方，还能“轻装上阵”

　　碎石路、涉水路、前方行动的车流、容易陷落的深坑暴雨……当把复杂的现实世界简化到不同种类的路况知识，机器人拥有的就不再是“某一条路的记忆”，而是一种可迁移的“泛化能力”。

　　“它能从城市的街道走到西湖的山林，也能走进我们居住的小区。”王钊说，“山地、台阶、山坡、室内外，全域全地形，它都走得稳。”

　　此外，团队通过视觉超压缩技术，让这套“机器人智能大脑”变得很“轻”。

　　现实世界的信息量太庞大了，比如一台机器狗走一分钟，摄像头能拍下1800张图像，数据量对于算力开销和大脑推理都是不小的负担。

　　“我们得帮它做减法。”团队训练模型时剔除了冗余的视觉信息，从成百上千个判断条件里，让模型自动筛选出事物背后的潜在物理规律。这样，整个具身世界模型变得“可训练”，也大幅降低了对训练数据的需求量。

　　“就像我们看见一个人走过来，不需要分析他头发的颜色或衣服的纹理，”王钊说，“只需要预测他移动的轨迹、会不会撞到你，进而规划机器人的移动路径。这样才能让机器人的大脑既好用又轻便。”

如何越来越像人？机器人一直在练操作

　　如今，带着机器智能大脑的“赛博员工”们已经在浙江多地“找到工作”。

　　去年2月底开始，编号为数字警犬“001”的机器狗，已经在杭州小莲花体育馆周边开始了巡逻。当看见有人在吵架、打架等不文明行为，它可以做出判断，并生成文字描述，反馈给值班室；当前方有较大烟雾产生，它能迅速检测做出预警；要是有人摔倒或晕倒躺地，原来要去A地的“001”也能自主决断，走向需要帮助的地方。

　　不过，光会“看路”还不够。团队正在做的另一件事，是给机器人补上“手”的操作能力。比如，让机器人如何抓取形状各异的外卖袋、如何自己按电梯。

　　“‘看路移动’能力和‘手部操作’能力共享机器人对世界的理解和预测，而在末端行为的规划上会有所不同。因此，我们正在构建‘具身全行为世界模型’，让机器人更多地在日常生活中发挥作用。”王钊说。

　　2024年，王钊在杭州创办了杭州夏夜星科技有限公司，核心团队来自北京大学、上海交通大学、阿里巴巴、海康威视等高校与企业，团队成员都是“90后”。这支团队把这些实验室里的“机器慧眼”技术，一步步做成能在生活里帮上忙的机器人。

　　“它们将从‘特殊场景’逐步走进日常生活。在小区里送快递、帮我们扔垃圾，甚至深夜代我们去买东西……在不久的将来，这些事机器人都可以帮上忙。”王钊表示。

这支“90后”团队教巡林机器狗更懂世界

日期：07-02 字号：大中小 版面：a0013版：潮新闻·寻新记 上一篇 下一篇

这支“90后”团队
教巡林机器狗更懂世界

日期：07-02

字号：大中小

版面：a0013版：潮新闻·寻新记上一篇下一篇