电子报阅读机
2026-07-03
星期五
当前报纸名称:金华晚报

AI浪潮背后的“赛博织网人”

日期:06-30
字号:
版面:第04版:深度       上一篇    下一篇

如果人工智能是一匹纵横驰骋的骏马,数据便是它赖以奔腾的草原;而数据标注师,正是那位沉默而勤勉的织网人。他们经手标注过的每一条数据,都汇入AI的“教科书”,在AI生图、AI生视频、无人驾驶等前沿领域,悄然支撑着技术从实验室走进现实。将杂乱无章的原始数据,转化为机器能够“读懂”的精准信息——数据标注,这道人工智能的第一道关卡,究竟如何运作?带着好奇,记者走进金义新区,亲身体验了一回数据标注师的日常。

“喂养”模型,教AI读懂数据

近年来,金义新区以系统性的布局深耕数据标注赛道,先后集聚了海天瑞声、冉辰数据、嘉创云智等一批企业,并成功跻身省级高端数据标注基地试点名单。依托龙头企业资源,这里正崛起为聚焦无人驾驶等新兴赛道的AI数据产业生态基地。

在数据标注服务文化产业园,我见到了金华市嘉创云智科技有限公司副主管于晖。见面不过几分钟,他便递来一份“入职试题”。试题分为多个板块,既考查人的视频审美能力,也检验影像编辑功底。第一题便让我犯了难,需要在3段视频里找出“非AI生成”的那一个。起初以为十分容易,其实视频真假难辨,这3个视频都非常逼真,每一帧都几乎可以以假乱真。

在纠结之下,我还是选错了选项。第二题开始涉及专业的数据标注知识,文本标注、图像标注、音频标注等分类。于晖提示道:“回答到这个程度还远远不够,文本标注还需要情感分类,识别文本表达的情感类型是积极还是消极;音频标注还包括了特定事件,比如婴儿哭声、汽车鸣笛、玻璃碎裂。”在他的讲解下,我才意识到,原来数据标注早已演化出错综复杂的“技能网”。

而数据标注师,正是人工智能体系中不可或缺的一环:他们像耐心的园丁,对图像、文本、语音、视频等进行分类、注释与标记,将其“翻译”成机器可以识别的信息,为AI训练源源不断地输送养分。一个成熟的AI模型,往往需要成千上万个样本反复“喂养”,每一份样本都要经过标注师之手,才会流向算法团队,最终成为服务千行百业的AI产品。

“你每天刷短视频,平台之所以总推荐你爱看的内容,背后就是标注师在替你‘画像’——哪类视频你停留最久、哪类划走最快,AI心里一清二楚。”于晖说,“再比如智能驾驶,系统得清楚知道车道线、红绿灯、行人、障碍物,这些判断全都依赖前期的数据采集和标注。”他补充道,团队既要奔赴实地拍摄路况视频,也要在后期逐帧打上精准标签。“高质量标注,是机器精准理解、快速学习和高效训练的根基。”随着大模型技术突飞猛进,数据标注的应用早已从互联网推荐延伸至金融风控、智能家居、公共安防等广泛应用场景。

重复之中,磨出精度

视频采集听起来简单,实际操作无异于“大海捞针”,需要在海量素材中寻找完全符合特定要求的片段,并且把需要的视频剪辑出来。于晖点开一份采集清单,上面列着“打斗类”“舞蹈类”等五大类别,而每类之下还有层层细分。“光是满足大类还不行,还有很多要求:视频画面分辨率需要在1920×1080以上,画幅内清晰无字幕遮挡,光线要均匀……”

我上手试了才知道,数万素材扑面而来,眼睛酸涩,却常常在即将敲定一个片段时,因某项指标不达标而被迫放弃。“视频采集工作需要耐心,慢工出细活,有时要用几个小时的时间捞出一段几秒钟符合要求的片段。”于晖平静地说。

这份工作容易上手,但真正留住人却不容易。工位上,60多名标注师盯紧屏幕,鼠标声此起彼伏。从早到晚,为了赶项目工期还得加班加点。“很多人一听数据标注师,就觉得和AI沾边很厉害,实际上,这是一份需要耐得住寂寞的工作。”于晖坦言,“长期伏案盯屏幕,重复操作,很多年轻人坐不住,而到了相对高端的数据标注和模型训练环节,又需要较广的知识面或者对应的工作能力,人才断层很明显。”

那么,数据标注是如何赋能产业的呢?我随后来到了金华鹿课数字科技有限公司,一位AI应用工程师在现场演示了一款外贸销售AI应用的视频片段,正是嘉创云智团队标注的成果。

在应用对话框输入指令“帮我生成一段具有科技感的品牌宣传视频”后,点击AI生成内容,不到3分钟,一段6秒的AI短视频自动生成了。视频动态自然,画面干净利落,转场衔接自然,节奏也恰到好处。“若非亲眼目睹AI生成过程,几乎以为这是专业摄制团队的作品,太逼真了。”我不禁感叹。

低门槛,不过是数据标注行业初级阶段存在的现象,随着垂直领域的大模型应用越来越多,数据标注的专业壁垒也越来越高,医疗影像标注要有解剖学知识,法律文书标注要有条文解读能力,自动驾驶云标注需要有三维空间想象力。在于晖看来,大模型时代正倒逼数据标注产业从“劳动密集型”向“技术密集型与知识密集型”转变。

记者手记

数据标注,恰如在一片无垠的旷野上,一砖一瓦地为AI搭建认知世界的阶梯。

在金义新区,数据标注产业已蔚然成势。目前,园区已引入多家上下游关联企业,2025年人工智能产业营收达19.1亿元。按照规划,到2027年,这里将引育3~5家数据标注龙头企业,集聚专业人才超过6000人。DeepSeek、ChatGPT等大模型接连引爆市场后,高质量、精细化、多模态的数据标注需求呈指数级攀升。未来,数据标注员不再是机械重复的“工具人”,而将逐步演进为兼具行业知识、分析判断与创造力的“AI教练”。

“赛博织网人”坐在工位前,用一帧一帧的标注,在数字世界里密密织就一张让AI认识万物的网。

本报记者 张丹楠/文 俞佳妮/摄