电子报阅读机
2026-07-02
星期四
当前报纸名称:钱江晚报

这支“90后”团队
教巡林机器狗更懂世界

日期:07-02
字号:
版面:a0013版:潮新闻·寻新记       上一篇    下一篇

安装上“超压缩具身世界模型”的“巡林机器狗” 受访对象供图
超压缩具身世界模型硬件

  起点,是一片碎石路。目标,是寻找四处可能存在的可疑烟雾。没有遥控器递过来,没有护林员在旁边随行,全程无需任何人为干预——左转还是右转?直行还是绕道?遇上山坡和深坑怎么走?全凭它自己判断。

  它就是“巡林机器狗”。

  今年4月,它在杭州西湖边的山林里正式“上岗”。三个月来,它一次次自主规划巡检路线,稳稳避开所有危险地形,圆满完成了“消防巡林”的任务。

  昨天,记者和“巡林机器狗”来了一次亲密接触,也解开了它的“慧眼”背后的秘密。

机器人学会自己“看路”

  “会思考”的眼睛来自于北京大学信息技术高等研究院(以下简称“北大信研院”)团队打造的“超压缩具身世界模型”。它要做的事情,就是让机器人仅仅基于普通摄像头,就能实现看懂世界、推理世界,进而自主规划找到合适的移动路径。

  “传统的机器人导航,仅适用于固定小区域场景。”北大信研院视觉智能实验室主任王钊介绍,它们需要提前用激光雷达或深度相机把整个环境扫描一遍,构建出高精度三维地图,然后按图索骥。

  但传统建图导航方法有明显的局限。“建图只适用小场景,如扫地机器人、酒店送餐机器人,大区域场景很难建图。地图构建得再精细,也难以适应动态变化的现实世界,可能今天堆一堆碎石,明天积一滩水,地图说废就废,也无法实现与人的交互性导航,只能按照地图匹配的路线。而学会了看世界的机器人,就像我们第一次去陌生的公园。”王钊介绍,“它们的‘眼睛’看到画面,‘大脑’可以立刻做出判断,并把画面里每一块区域都快速推理出语义知识与物理规律,例如可通过性、位置预测性等,然后做出最优行为规划。”

既能走四方,还能“轻装上阵”

  碎石路、涉水路、前方行动的车流、容易陷落的深坑暴雨……当把复杂的现实世界简化到不同种类的路况知识,机器人拥有的就不再是“某一条路的记忆”,而是一种可迁移的“泛化能力”。

  “它能从城市的街道走到西湖的山林,也能走进我们居住的小区。”王钊说,“山地、台阶、山坡、室内外,全域全地形,它都走得稳。”

  此外,团队通过视觉超压缩技术,让这套“机器人智能大脑”变得很“轻”。

  现实世界的信息量太庞大了,比如一台机器狗走一分钟,摄像头能拍下1800张图像,数据量对于算力开销和大脑推理都是不小的负担。

  “我们得帮它做减法。”团队训练模型时剔除了冗余的视觉信息,从成百上千个判断条件里,让模型自动筛选出事物背后的潜在物理规律。这样,整个具身世界模型变得“可训练”,也大幅降低了对训练数据的需求量。

  “就像我们看见一个人走过来,不需要分析他头发的颜色或衣服的纹理,”王钊说,“只需要预测他移动的轨迹、会不会撞到你,进而规划机器人的移动路径。这样才能让机器人的大脑既好用又轻便。”

如何越来越像人?机器人一直在练操作

  如今,带着机器智能大脑的“赛博员工”们已经在浙江多地“找到工作”。

  去年2月底开始,编号为数字警犬“001”的机器狗,已经在杭州小莲花体育馆周边开始了巡逻。当看见有人在吵架、打架等不文明行为,它可以做出判断,并生成文字描述,反馈给值班室;当前方有较大烟雾产生,它能迅速检测做出预警;要是有人摔倒或晕倒躺地,原来要去A地的“001”也能自主决断,走向需要帮助的地方。

  不过,光会“看路”还不够。团队正在做的另一件事,是给机器人补上“手”的操作能力。比如,让机器人如何抓取形状各异的外卖袋、如何自己按电梯。

  “‘看路移动’能力和‘手部操作’能力共享机器人对世界的理解和预测,而在末端行为的规划上会有所不同。因此,我们正在构建‘具身全行为世界模型’,让机器人更多地在日常生活中发挥作用。”王钊说。

  2024年,王钊在杭州创办了杭州夏夜星科技有限公司,核心团队来自北京大学、上海交通大学、阿里巴巴、海康威视等高校与企业,团队成员都是“90后”。这支团队把这些实验室里的“机器慧眼”技术,一步步做成能在生活里帮上忙的机器人。

  “它们将从‘特殊场景’逐步走进日常生活。在小区里送快递、帮我们扔垃圾,甚至深夜代我们去买东西……在不久的将来,这些事机器人都可以帮上忙。”王钊表示。