“亮相”政府工作报告,具身智能有多“能”?
日期:03-06
版面:
第A07版: 2025全国两会特别报道 上一篇 下一篇
本报讯(记者 张安琪) 3月5日,十四届全国人大三次会议开幕。记者注意到,今年政府工作报告中有个“新词”——具身智能。报告指出,建立未来产业投入增长机制,培育生物制造、量子科技、具身智能、6G等未来产业。具身智能到底是个啥?它和人工智能有啥区别?又有多“能”?
具身智能,是指将人工智能融入机器人等物理实体赋予它们具有像人类一样的感知、学习和与环境动态交互的能力。与传统的人工智能相比,具身智能更加强调物理身体、环境感知与反馈的重要性。
比如,今年春晚上扭秧歌扭出圈的人形机器人、逐步走进现实生活的机器狗,以及可感知周边环境的智能扫地机器人、已进入路测的自动驾驶汽车都可被视为具身智能的雏形。
人形机器人被认为是具身智能的最佳载体。“从单一产线到开放场景,从预设程序到自主决策,具身智能正在重构机器人应用范式。”上海交通大学机器人所博士骆研,目前正在江苏集萃智能制造技术研究所有限公司参与并负责人形机器人项目研发。他告诉记者,随着大模型、强化学习等技术的持续突破,人形机器人将逐步实现从专用设备向通用智能体的跨越式进化。研究团队目前正致力于攻克多模态感知、精细操作控制等关键技术瓶颈,推动智能机器人从实验室走向产业化应用。
据介绍,具身智能通过融合多模态感知与认知决策系统,可使机器人深度理解人类指令意图,并实现跨场景的任务泛化执行。这些特性使其在交互密集型服务领域具有广阔应用前景,包括智慧家政、适老化陪护、个性化教育辅助、医疗康复支持、智能设施巡检及应急救援等场景。
具身智能要实现更人性化的交互,首先要能够“看得见”“看得懂”外界情况。从事人工智能行业多年的周工,当前正和同事们致力于计算机视觉和大模型研究,为具身智能装上“眼睛”。他介绍,具身智能要做到“看得见”,需依靠摄像头等多种视觉传感器,像人类的眼睛一样采集周围环境信息。而“看得懂”,则要利用大模型对视觉数据深度分析,理解物体类别、位置关系等语义信息,赋予智能体理解世界、决策行动的能力。经过十几年的发展,目前业内已解决“看得见、看得清”问题,正处于推动“看得懂、看得明白”阶段。
2000年图灵奖得主、中国科学院院士姚期智指出,目前具身机器人遇到的主要挑战有:第一,机器人不能够像大语言模型一样有一个基础大模型直接一步到位,做到最底层的控制。第二,计算能力的挑战。第三,如何把机器人多模态的感官感知全部融合起来,仍面临诸多难题。第四,机器人的发展需要收集很多数据,面临安全隐私等方面问题。
根据智源研究院数据统计,截至2024年底,国内已发布或在研人形机器人接近100家,融资规模超100亿元。