建设数据基础平台 打造数据要素生态
日期:08-05
邬贺铨
数据是生产要素,贯穿数据收集、处理、传输、融合、挖掘、服务、应用、销毁等全生命周期。数据基础设施是数字基础设施重要组成部分,介于网络基础设施与数据应用服务之间。数据生态包括数字基础设施、数据基础制度、数据治理体系、数据产业与服务、数据人才等。
人工智能的迅速发展推动数据进入全新时代。目前,基础大模型在行业中的直接应用有限,需进一步优化为行业大模型。主要途径有两种:一是将行业数据提供给基础大模型提供方,但需妥善处理垂直行业涉密问题;二是通过购买或租赁基础大模型自主训练行业模型,但此类模型的实际效果仍存在不足,需进一步提升应用效果。
截至目前,全球行业大模型的发展尚不成熟,但小模型在供应链、市场营销、智能客服等领域已展现出一定应用潜力。
实现真正的数据落地,仅依靠模型还远远不够。应推动数据逐步上云,向终端下沉,深入智能体及物理实体,并通过群智协同推动通用人工智能的发展。
随着中国企业上云比例的逐步提升,云服务逐步向模型即服务(MaaS)发展,为企业提供了直接应用大模型的机会。MaaS结合大模型技术,允许企业在云端微调自身数据,推动数字化转型。人工智能为数据落地应用提供了拓展机会,基础大模型在智能客服、员工培训、智能风控等行业场景中具备直接应用价值。
在数据资源建设过程中,当前面临的主要问题包括数据标注难度大、数据开放与隐私保护的挑战以及跨境数据流动管理的复杂性。针对这些问题,需采取一系列针对性解决方案。
数据标注的成本较高,工业数据标注尤为复杂。当前约70%的数据仍依赖人工标注,尤其是语言和视频数据标注工作,属劳动密集型工作。工业数据标注难度更大,需行业专家参与,仅靠普通技术人员难以完成,这导致工业数据标注成本和人才需求极高。为此,运用AI技术辅助数据标注的方式正在探索。
为确保数据标注的规范性,需区分原始数据与AI生成数据,并对AI生成数据进行水印标记,以提升数据来源的可追溯性和可信度。在部分场景中,可通过AI技术辅助标注,提升效率并减少人工干预。
在数据开放过程中,政府掌握了大量数据资源,但对于个人数据需进行去标识化处理,采取过滤、加密、乱序、屏蔽等方式,以保障隐私。对于跨境数据流动,需进一步实现匿名化,以防止用户敏感信息的泄露。
垂直行业企业(如中石油、中石化)拥有大量数据,但数据开发能力不如IT企业,难以实现数据价值最大化。IT企业具备开发能力,但垂直行业企业将自身数据交给IT企业来推理,担心数据泄露风险。为此,可通过构建数据空间,提供数据可信开发环境,实现数据加密存储与管理,确保数据可用但不可见。
当前,许多企业在数据应用过程中面临较大网络安全压力,必须高度重视防范数据被劫持的风险。
为有效防止数据被劫持,应从多个方面采取管控措施,具体包括限制数据访问的时间、次数和访问点等。即使是合法接入者,也应在规定的时间和地点进行访问。与此同时,必须加强对外部攻击的防范。各企业、机构应积极倡导政府牵头,整合各方资源,形成社会化网络安全体系,做到“有难共援”,从而提升数据要素应用和数字化转型中的网络安全保障能力。
推动数据应用的发展,还必须加强数据基础平台建设,打造数据要素生态。政府应发挥关键作用,特别是在建设算力平台和数据资源供给平台方面。
政府应率先推动数据开放,包括建设高质量的语料库和AI生成数据技术的检验与标注中心。应搭建保障数据流通的平台,推动数据空间建设,提供数据融合开发技术、合规交易技术和加密计算支持。为确保数据安全与合规,可以建设数据保税区,处理境外数据时,既要确保数据不被滥用,也要防止夹带不符合意识形态管理规定的内容。
此外,数据流通平台应具备算力、算法模型及辅导功能,为市场分析、产品设计、生产调度等方面提供支持。对中小企业而言,开放第三方平台尤为重要,政府应为企业提供有效辅导,帮助其正确使用发放的算力券,并在实际应用中提供专业指导,从而推动数据要素的全面应用与数字化转型。
(作者系中国工程院院士)