电子报阅读机
2025-10-13
星期一
当前报纸名称:包头晚报

你知道吗 AI数据也会被污染

日期:08-18
字号:
版面:第12版:新知       上一篇    下一篇

随着人工智能技术和应用的蓬勃发展,各类AI工具已经成为我们日常工作和生活的助手,不知不觉间,我们的生活开始与人工智能密切联系。但与此同时,使用AI杜撰信息的问题也随之而来。如果把AI比喻成食物,训练数据就相当于食材,食材腐败变质,最终生产出来的食物就会有问题。一旦数据受到污染,就可能导致模型决策失误甚至AI系统失效,存在一定的安全隐患。 数据也会被污染 近日,国家安全部门发布提示,通过篡改、虚构和重复等“数据投毒”行为产生的污染数据,将干扰模型在训练阶段的参数调整,降低其准确性,甚至诱发有害输出。 那么究竟什么是AI数据污染,数据污染分为哪几类? 网络安全专家曹辉介绍:“数据投毒主要针对两个方面,一个是针对视觉类,一个是针对自然语言处理类。这张图片是一个斑马识别人工智能系统的训练数据。我们看到,在这张照片上很多斑马进行了标注。如何进行数据污染?就是在其中的一匹斑马身上加一个绿点。加了绿点的斑马,特意不进行标注。这样的训练数据大概会有几万张,在这几万张训练数据里面的其中三四张进行类似的污染处理,就会导致生成的人工智能模型带有后门,就会导致当它再见到类似身体上有绿点的斑马,它就不会认为这是个斑马,就导致了AI模型的判断受到干扰。” 人工智能数据污染分为两类。一种是人为主观恶意去篡改数据,误导人工智能的输出结果;另一种是人工智能本身会海量的收集网络的庞大数据,其中不良信息如果没有被甄别删除掉,而是当作可以信任的信息源加入算力中,输出的结果同样不可信任。 “我们知道大模型训练需要大量的数据,所以,大部分的互联网数据,书、报、电影的对话、台词数据都是训练数据通常的收集范围。其实我们都有可能在互联网上发一些数据,一旦这些数据是不安全的、被污染的,那可能大模型也会随之受到影响。”网络安全专家曹辉表示。 或引发现实风险 国家安全部数据显示,AI在训练过程中,即使是0.001%的虚假文本被采用,其有害输出也会相应上升7.2%。为何小小的污染源输出时的危害会几何级数的上升呢? 专家介绍,被污染的数据有着明显地与其他数据不同的观点和内容,这种情况下,AI很可能将污染数据标记为“有特点和高信息量”,并增加在算力中使用的比例。 中国网络空间安全协会人工智能安全治理专业委员会委员薛智慧告诉记者:“大语言模型本质上是一种统计语言模型,使用的多层神经网络架构具有高度的非线性特征。在模型训练阶段,如果训练数据集中混入了污染数据,模型可能误将污染数据判定为“有特点、有代表性、高信息量”的内容,这种错觉就会使模型提高污染数据整体在数据集当中的重要性,最终导致少量的污染数据也能对模型权重产生微小影响。而当模型输出内容时,这种微小的影响会在神经网络架构的多层传播中被逐层放大,最终导致输出结果出现明显偏差。” 另外,AI数据污染还可能在金融、公共安全等领域引发一系列现实风险。 “比如在经济金融领域,一旦数据受到污染,一些市场行为分析、信用风险评估、异常交易监控等工作就可能出现判断和决策错误,进而造成直接的经济损失。而在社会舆论方面,数据污染会破坏信息的真实性,让民众难以辨别信息的真伪,这就可能会引发社会舆论风险。”中国网络空间安全协会人工智能安全治理专业委员会委员薛智慧说。 亟待加强源头监管 针对AI数据污染,从国家安全层面,我们应该如何防范风险?专家表示,应加强源头监管,防范污染生成。 中国网络空间安全协会人工智能安全治理专业委员会委员薛智慧认为:“要制定明确的数据采集规范,使用安全可信的数据源,构建数据标签体系,采用严格的访问控制和审计等安全措施。” 其次,可以使用自动化工具、人工审查以及AI算法相结合的方式,对数据不一致性、格式错误、语法语义冲突等问题进行分析和处理。 安全机关此前针对AI数据污染也提示,要定期依据法规标准清洗修复受污数据,逐步构建模块化、可监测、可扩展的数据治理框架,实现持续管理与质量把控。 对于广大网友而言,我们在日常生活和工作中,又应该如何防范AI数据污染的风险呢? 网警提醒:一是使用正规平台和企业提供的AI工具;二是科学合理地使用AI工具,AI产生的结果可以参考,但不能盲信;三是注意保护个人信息,避免不必要的个人隐私暴露,同时不作不良信息的投喂者,共同守护网络家园。 (本报综合)