有这样一个小女孩,她爱干净,能主动收拾玩具和做家务;她有小脾气,会因为喜欢妈妈而帮她擦掉洒了的牛奶,但遇到不喜欢的人,她会拒绝提供帮助;她的记性很好,还很有逻辑,问她做过或见到过的任何事,都能娓娓道来。
她叫“通通”,是全球首个通用智能人。在2024中关村论坛年会上,“通通”闪亮登场即赢得广泛关注。
“通通”的发布,标志着通用人工智能的发展迎来关键的里程碑,通用智能体将成为人类智能时代生活的重要部分,为未来“数字人”的发展打下一个坚实的基础。
观察:从聊友到工作伙伴 “数字人”已融入普通人生活
数字人,一种在人工智能时代兴起的虚拟形象,从简单的一张“动图”,已经发展成具有思考能力的仿真形象,不管是外形还是思维,跟人类越来越靠近。
“数字分身是我最好的朋友兼工作伙伴!”一位体验过数字人聊天产品的用户说,这些“克隆人”不仅容貌和声音与真人无异,而且还可以秒回消息、打视频电话聊天,有的公司甚至用被授权过的明星来制作数字分身,并为此收费,获得大量好评。用户可以设置不同的模式,以此让分身满足自己不同时段的要求,比如在“情感模式”下,它可以成为用户最好的朋友;若是切换到“超级模式”,它还会与用户一起工作,帮助用户写作文案。
不过这一类AI技术还具有较大的局限性,它们只能与真人的容貌和声音类似,不能做到有自主意识和逻辑思考能力。
实际上,这类“数字人”已经融入了我们的生活,比如今年清明节,就有不少人选择用AI复活亲人:通过收集逝者生前的影像、声音等资料,构建出亲人的虚拟形象,并使其能够模仿逝者的言行举止。
有爱憎会学习知冷暖 智能人“通通”是“数字人+大模型”
不同于上述提到的一系列“数字人”,此次与我们见面的小女孩“通通”,更趋向于一个有“自我思维”的智能人。
头戴粉色发箍,身穿白色T恤、粉色短裤,脚上一双红灰色的运动鞋,看起来只是个上三四年级的小女孩,这就是“通通”的形象。那么“通通”到底会干什么呢?
跟同龄小朋友一样,她也在上幼儿园。“通通”的记忆力特别好。在幼儿园的教室里,“通通”对一切都充满了好奇。她走到一张摆满玩具的桌子面前问:“这是什么?”“这是一种玩具,叫‘西西’。”屏幕前的操作者以老师的身份回答。晚上当“通通”放学后,她还记得之前学习过的这种叫“西西”的玩具,并且可以认出全部类似的玩具。
不过“通通”跟和其他小朋友一样,也喜欢吃零食。比如,当工作人员为她设定“饥饿度”、“渴度”之类的参数后,她就可以在忙了一段时间后,感知到自己需要进食了。当她饿了,会去找食物,看到茶几上的饼干,就会拿起来吃。如果累了,她还会自己休息。
令人印象深刻的是,“通通”特别喜欢帮爸爸妈妈整理家务。她会自动观察哪里脏了、乱了,需要被整理打扫。比如,当她发现厨房地面上的纸团,会自觉捡起丢掉;她看见了被人碰倒的水杯后,也会赶紧将杯子扶起来。“通通”还有自己的“小脾气”。比如为妈妈设定较高的友好值,而为爸爸设定较低的友好值后,“通通”看到妈妈不小心洒掉牛奶,会立刻去一旁的厨房拿来抹布,开始擦地上的污渍。而同样看到爸爸端着的牛奶洒了后,则“无动于衷”,爸爸只好自己把污渍擦干净。
作为一个“智能人”,“通通”不光具有自主的感知、认知、决策、学习、执行能力,它还需要符合人类的情感伦理和道德观念,“因此我们的特色就是价值和因果驱动”,北京通用人工智能研究院的研究员陈浩介绍说。
“‘通通’与其他数字人相比,最大的特点在于有了大模型的加持,具有更为综合和高级的功能。其他的是数字人,她是‘数字人+大模型’。她不仅具备高度仿真的外貌和行为,还拥有更强的自主决策能力和个性化的反应。”数字经济学者刘兴亮告诉记者,“她能表现出对特定人的喜好,如喜欢妈妈,并因此产生不同的行为反应。这种情感偏好让‘通通’更加接近真实人类的情感反应。”
“‘通通’和其他数字人的区别主要体现在:一是感知与主动性,‘通通’能够识别环境状态(如桌子很乱)并主动采取行动(如收拾玩具、擦干净桌子)。这种主动性和环境适应能力是区分高级智能体与传统数字人的关键特征。二是情感偏好,她会因为喜欢某人而提供更多的帮助。这种情感智能的体现,使得她更接近于人类的行为模式,而不仅仅是执行命令的机器。三是记忆与逻辑,她的记忆力和逻辑推理能力强大,这意味着她能够进行复杂的决策和回答复杂的问题。这超出了简单的任务执行,显示了她的高级认知能力。”天使投资人、人工智能专家郭涛认为。
释疑:“通通”为什么这么懂事?背后这些玄机帮她长能力
“‘通通’的背后是一个通用人工智能的基础底座,我们这边有几个平台,首先我们为了给‘通通’创建高仿真的训练平台,搭建了一个通用人工智能训练仿真平台。”陈浩介绍,这个训练平台分为好几层,最下面的是一些基础模块,包括数据库、渲染引擎、硬件的接口支持等等。在平台上面则是技术支撑模块,它可以自动收集场景中的各种数据。
那么“通通”为什么这么懂事?这就有赖于其中的“物理仿真模块”,通过这一模块,“通通”就能了解现实生活中的一些物理规律与因果规律。人机互动模块主要就是人通过不同的方式接入进去,来和“通通”进行互动,向她传授各种知识、价值和技能。
在“通通”和环境,以及和人的交互过程中,她可以进行学习探索,然后增长自己的能力边界。简单来说,操作系统更像是“通通”的身体,为她提供了一些感知、行动与决策的能力。编程语言代表的则是“通通”背后的价值体系,包括她的技能知识,以及她的推理和规划能力,这相当于一个人的大脑。这两部分联合起来,就构成了一个或者多个智能体,每一个智能体都有自己的价值库和技能库,在这个环境中进行探索,这就是“通通”整体的架构。
北京通用人工智能研究院院长朱松纯介绍:“‘通通’具备三四岁儿童的完备心智和价值体系,目前还在快速迭代中,未来将进入我们生活的方方面面。”
发展:主流科技公司推出“数字人” 不少已经规模商用
数字人、智能人,这类人工智能时代的新产物,在大模型时代迎来了跨越式发展。从直播带货的“动态照片”,到可以跟人交流的数字人,再到有情感和道德观的智能人……数字人的发展由于跟用户离得更近而备受瞩目。
一份《2023年中国虚拟人产业发展与商业趋势研究报告》显示,2022年中国虚拟人带动产业市场规模和核心市场规模分别为1866.1亿元和120.8亿元,预计2025年分别达到6402.7亿元和480.6亿元。
目前,阿里、京东、商汤等主流科技公司均已推出自己的数字人,其中不少已经规模商用。比如在去年的亚运会上,超1亿数字火炬手跑出支付宝APP汇聚大莲花点燃主火炬,实现全球首个数字点火仪式;而前几天,刘强东的数字人来到前台帮京东带货;还有不少数字人已经在银行交易场景“入职”,数字人员工可通过语音交互的声控方式和客户进行互动,提供业务咨询、产品介绍、扫码取号等服务,还可协助客户在自助机具上办理转账汇款等业务。
根据艾瑞咨询研究院测算,2023年中国人工智能产业规模已达到2137亿元,大模型带来的底层技术革新将为中国人工智能产业,包括数字人相关产业的规模增长带来更多存量扩张与增量空间。
“数字人”未来什么样?提供更自然的服务体验
“通通”的发布,毫无疑问是“数字人”科技的一大飞跃,在这一技术蓬勃发展的背景下,未来的“数字人”又可以做出哪些改变呢?
“数字人的应用场景将持续拓宽,不仅局限于客户服务、虚拟主播等领域,还将渗透到教育、医疗、娱乐等多个行业。数字人将成为人机交互的新入口,提供更为自然、便捷的服务体验。”刘兴亮说。
郭涛也认为:“情感智能将成为数字人发展的重要方向。他们不仅能够理解和模拟人类情感,还能够根据用户的情绪状态调整自己的行为。多模态交互能力方面,未来的数字人将会整合更多的感知模式(如视觉、听觉和触觉),数字人的交互能力将越来越接近于人类水平,使得沟通更加流畅和自然。”
此外,刘兴亮表示:“数字人技术与其他技术的深度融合将推动产业创新。例如,数字人与SLAM、3D交互、体积视频、空间音频等技术的结合,将创造出更加沉浸式的交互体验。此外,数字人还将与企业业务场景深度耦合,推动企业创造差异化商业价值。”
“像失独家庭、孤儿、渐冻症、自闭症、独扶家庭等,很多这样的特殊群体都对数字人有需求。”上海观庐科技公司的CEO季奚同说,“他们需要AI来延续生命,而他们也给了AI以真正的生命。”
朱松纯认为,实现通用人工智能,关键在于为机器“立心”。过去,人类一看就会的能力、毫不费力能做的事情,人们误以为这并不是智能,因为这些问题很简单,但事实上,恰恰是人类针对这些问题进化出的强大心智和价值体系才是最重要的——相比数据与理论,价值与“心”才是“活”的,是自主智能的源泉。
(据《北京青年报》)