“这是一头牛吗,为什么像个自行车座?”站在上海浦东美术馆“非常毕加索”展区中央,有人看着那件由废弃车把和座椅拼成的雕塑,忍不住对着手机屏幕发问。几秒后,一个温和而清晰的声音回应:“这是毕加索1942年的作品《牛头》。他不是在画牛的外表,而是用现成物品抓住‘牛’的本质——车把是角,座垫是脸,组合起来就是一头充满力量感的牛。”
这不是科幻电影,也不是未来设想。日前,在浦东美术馆的展厅里,很多观众正在通过字节跳动旗下AI助手豆包的视频通话功能,与眼前的艺术品展开实时对话。只需打开App,对准展品,就能获得一位随时待命、知识渊博、永不疲倦的“私人讲解员”。
字节跳动与上海浦东美术馆达成合作,字节跳动旗下豆包已经成为该馆两项国际大展——“图案的奇迹:卢浮宫印度、伊朗与奥斯曼的艺术杰作”与“非常毕加索:保罗·史密斯的新视角”的官方AI讲解员。这也是国内首个在美术馆场景中规模化落地的AI视觉导览应用。
从“看不懂就走”到“越问越懂”
长久以来,博物馆和美术馆的公众教育面临一个结构性难题:艺术解释高度依赖稀缺人力。专业讲解员数量有限,专家讲座名额紧俏,普通观众站在一件陌生作品前,往往只能依靠展签上寥寥数行文字,或干脆“打卡拍照、匆匆离场”。
而豆包的出现,正在打破这一瓶颈。相关项目负责人介绍,视频讲解功能基于Seed1.8模型的视频理解能力。目前Seed1.8在视频感知、流式、视频理解方面都达到了SOTA水平。它不再局限于“拍图、发送、提问,再拍图、再提问”的模式,而是能持续理解观众眼前不断变化的视角和场景,从而实现连续、自然、像人一样的对话交互。
此外,豆包具备强大的视觉语言理解能力,可在非标准拍摄条件下(如画面抖动、局部遮挡、弱光)准确识别高度相似的展品,并基于权威资料库提供结构化解读。
例如,在“图案的奇迹”展厅,当观众对伊朗17世纪中叶的《赛诗会饰板》的画面场景感到好奇时,只需向豆包提问,它便能从画面所描绘的特定波斯文学场景讲起,并进一步说明这类艺术品在当时宫廷与文人生活中的文化功能。若观众追问“这种技法特别在哪里”,豆包可立即切换到对其材质与技法细节的补充说明,剖析细密画所采用的矿物颜料、金箔贴饰等精微工艺,说明其何以体现萨法维王朝的艺术巅峰。
此次上线的服务支持两种讲解模式:“大众模式”侧重艺术史脉络、技术细节与跨文化比较;“亲子模式”则采用故事化语言,适合家庭观众。更重要的是,系统支持连续对话与上下文理解,真正实现“按兴趣切入、按需深入”。
在《图案的奇迹》印度展区,一件17世纪的匕首常被忽略。当有人问:“这把刀能当马年的吉祥物吗?”豆包不仅准确识别出展品名称,马头象征的勇武精神,甚至主动关联中国传统文化中的“龙马精神”:“古人认为马有龙性……这把匕首上的马头,其实暗合了‘龙马精神’里昂扬向上的气质。”
北京大学教授朱青生在现场测试时故意提问:“刀柄与刀刃如何连接?”豆包答出“采用柄芯铆合法”,并描述黄金加固工艺,豆包的答案让朱青生感到佩服,“但我依然会带着专业的视角多琢磨”。复旦大学中文系教授梁永安更是直言:“人们的精神世界不该存在数字鸿沟。”他认为豆包这样的AI讲解为人们提供了一个良好的通道,有价值的对话空间。
不只是讲解员,更是观展伙伴
豆包的功能远不止于回答问题。它还能根据用户需求提供路线规划、拍摄建议和重点推荐。当记者表示“想拍点照片”,豆包主动提醒:“那些有复杂花纹的展品,拍的时候尽量凑近点,把细节拍清楚。”当被问及“三楼四楼有什么可看”,它迅速列出各楼层重点展品,并推荐四楼露台“看东方明珠和外滩视野特别好”。
一位带孩子参观的母亲说:“以前根本不敢带他来看这种展,怕他无聊。现在他自己问,自己找答案,反而更专注了。”这种“掌握节奏”的自主性,极大提升了文化参与的质量。
浦东美术馆董事长李旻坤强调:“过去我们贴二维码、做语音导览,但信息始终有限。人工讲解员再专业,也无法覆盖所有观众、回答所有问题。而AI可以做到‘千人千面’,让每个人按自己的节奏和兴趣探索展览。”
字节跳动副总裁朱骏也就豆包看展体验和媒体人陈鲁豫进行了对谈,朱骏表示,AI和用户的交互本质上是一种对话体验。在观展过程中,希望豆包通过共情式的提问和启发式的对话,把用户已有的感受和经验调动出来,形成更有参与感的理解过程。
此前,豆包就曾与中国国家博物馆、中国钱币博物馆、河南博物院、山东博物馆、安徽博物院、成都博物馆以及洛阳博物馆等七家国家一级博物馆达成合作,共同打造数字化看展体验区。未来,更多地方博物馆的“沉默藏品”,或将借AI重获声音。
著名艺术家陈丹青与北京大学教授、艺术史学者朱青生表示,人文精神是人所特有的,它永远在AI之外,随着AI的发展,人们也更应珍惜它所不能到的地方。
南京晨报/爱南京记者 杨静