万帧长视频中可以精准实现“大海捞针”

日期：04-10

字号：大 中 小

版面：第A10版：我的大学上一篇 下一篇

　　□ 南京日报/紫金山新闻记者何洁

　　想要在几小时长的视频中识别出一位穿着白色连衣裙、扎着马尾辫的小女孩，在过去只能凭肉眼看，耗时又耗力，但近日发布的一款视频理解大模型InternVideo2.5可以实现“大海捞针”。这款大模型由上海人工智能实验室、南京大学、中国科学院深圳先进技术研究院联合发布，这一突破标志着AI视觉感知从片段理解迈向对长时世界的系统性规律建模，为通用人工智能装上了智慧之眼。

　　“这个模型在看完监控视频之后，能够精准地定位到小女孩出现在第1400秒左右，并且能精准快速回放，将小女孩的轮廓标注出来。它的效率极其高，处理一个10分钟左右的视频，大概需要1分钟的时间。”南京大学计算机学院教授、InternVideo2.5大模型技术负责人王利民告诉记者。

　　2011年起，王利民就专注于视频分析与理解方面的研究。2022年，他带领团队发布首个通用视频理解基础模型InternVideo1.0，构建了可泛化的视频基础表征能力，全面覆盖视频识别、开放感知、时空解析三大核心领域。2024年，他带领研究团队发布多模态视频理解大模型的2.0版本，在原有基础上新增了多模态视频理解与对话能力，在识别检索、开放问答、高阶推理等复杂视频理解任务中取得了国际领先性能。

　　“我们这次发布的全新升级版本，在复杂视频理解的时间跨度与细粒度上取得了双维提升，‘记忆力’较前代模型扩容6倍，具备在万帧长视频中精准‘大海捞针’的能力，AI视频理解既能‘短平快’，亦可‘长深细’。”王利民介绍，简单而言，这一视频理解大模型的核心就是希望能够给现在的大模型装上“智慧之眼”，“可以识别基础动作，感知基本概念，同时具备长视频分析和解析的综合能力，能够以99%的精度在1万帧接近3个小时的视频中捕捉到我们想要的任何一个细节。”

　　目前，InternVideo系列大模型已成功应用于中央广播电视总台巴黎奥运会直播，能够精准定位运动员的得分瞬间及相关慢动作，极大提升了电视节目编创效率。与此同时，大模型也与华为技术公司开展合作，在终端视频内容分析、自动驾驶等场景进行了落地应用。

　　“如果想要快速地剪辑出一些精彩的片段，例如跳水或起跳的镜头，用户可以先输入关键词，大模型根据用户需求，从30分钟左右的视频中精准定位到精彩片段，并自动剪辑出来。”王利民说，“它还能看懂沙画，我们在跟央视合作《中国诗词大会》时，大模型能根据沙画视频内容读懂背后的视觉元素，猜出古诗题目。”

　　未来，2.5版本的该模型凭借其强大的长视频处理能力，将为互联网内容安全、监控安防、智慧体育、影视创作、虚拟现实等应用提供更高效的 AI 技术支持，助力各行业实现智能化升级。“我们希望能跟中小学的科学教育密切相结合。通过中小学生实验操作的视频，它可以精准定位到一些关键的操作步骤，然后使用自动分析流程，帮助老师作出判断，并给学生反馈。”王利民说。

万帧长视频中可以精准实现“大海捞针”

日期：04-10 字号：大中小 版面：第A10版：我的大学 上一篇 下一篇

日期：04-10

字号：大中小

版面：第A10版：我的大学上一篇下一篇