电子报阅读机
2025-10-10
星期五
当前报纸名称:江苏商报

数据“蓝图”这样改变我们生活

日期:09-03
字号:
版面:第A02版:观察       上一篇    下一篇

  在8月28日至30日召开的2025中国国际大数据产业博览会(以下简称“数博会”)上,国家数据局正式发布首批104个高质量数据集典型案例名单。南京有2个典型案例入选。分别是:南京莱斯信息技术股份有限公司申报的“公共信用档案高质量数据集”和南京南自信息技术有限公司申报的“中国华电发电智能巡检与安全管控高质量数据集”。

  什么是高质量数据集?简单来说,就是高价值、高密度、标准化的数据。当前,数据已成为驱动各行业发展的核心生产要素,高质量数据集更是模型训练的基石和核心稀缺要素。“没有优质的数据集,再先进的算法难以突破智能边界,再强大的算力底座也可能出现无米之炊,更是难以支撑人工智能迈向通用智能的终极目标。”中国工程院院士吴世忠在现场表示。

  南京2个案例入选首批高质量数据集典型案例名单

  此次数博会上发布的首批“高质量数据集典型案例”,是国家数据局战略布局的成果,展示了我国在农业、医疗、通信等领域的深度融合应用。

  为解决“无标准难识别”“数据散难处理”“源头多难追溯”等难题,南京莱斯信息技术股份有限公司建设了“公共信用档案高质量数据集”。通过数据全链条精细化治理,构建公共信用档案高质量数据集,形成覆盖经营主体的公共信用档案。目前,数据集已对接47个部委、31个省级单位及新疆生产建设兵团。截至今年6月,累计归集数据超800亿条,覆盖1.8亿以上社会法人和8亿自然人,年增量稳定在20亿条以上。广泛应用于政务服务、民生领域、优化营商环境、社会治理等领域,有效提升行政管理效能,降低市场运行成本。

  南京南自信息技术有限公司此次成功入选的是“中国华电发电智能巡检与安全管控高质量数据集”。在我国加速构建新型能源体系与人工智能垂直领域深度融合的背景下,本案例克服视觉、声纹在发电领域面临异常种类多、正样本缺乏、感知环境复杂等挑战,构建覆盖“风电、光伏、水电、火电”全发电类型的智能巡检、安全管控视觉数据集、大型转动设备声纹等数据集。构建了数据集采集、标注、更新迭代、场景应用的标准体系,推动行业发展。

  全省到2027年底建设不少于1000个高质量数据集

  近日,江苏省数据局、省委网信办、省发展改革委、省科技厅、省工业和信息化厅、省财政厅、省人力资源和社会保障厅、省国资委联合印发《江苏省发展数据标注产业建设高质量数据集实施方案(2025—2027年)》(简称《方案》),提出到2027年底,全省建设不少于1000个完整规范、准确实用的高质量数据集。

  这些“数据集”涉及哪些领域,又将在哪些应用场景中改变我们的生活呢?首批建设清单共涉及交通运输、医疗健康、金融服务、文化旅游、教育教学等17个与普通人生活密切相关的场景领域。

  以近年来热度持续“升温”的自动驾驶来说,在与《方案》同时发布的《江苏省高质量数据集重点领域首批建设清单》中,就包括了这一行业。具体来说,自动驾驶行业高质量数据集聚焦路端感知、特定场景与任务、4D成像雷达等,将在自动驾驶模型训练、智能交通管理、交通规划支持场景中应用。现今已成为人们重要出行工具的网约车,网约汽车司乘服务数据集将聚焦智能调度、出行保障、订单信息、行程录音等,为司乘服务、客服接单、路线规划、算法优化等提供有力支持。

  医疗健康是与普通人生活幸福感关系最密切的领域之一。汇集肿瘤、血液病、代谢病、免疫病等数据的生物信息学高质量数据集,将推动新药研发、临床诊疗、基础医学研究等人工智能大模型训练取得更多成果。而囊括全省医保定点医院、医保定点药房的医保费用结算、药品耗材交易、诊疗就诊登记数据的医保结算与药品追溯数据集,将在医保基金智能监管、医药产业发展、商保医保服务、医药零售服务等场景中发挥重要作用。

  据交汇点、《扬子晚报》