本报讯(光明新闻记者 杨曦)昨日,鹏城实验室智算部主任陈文光在接受记者采访时,用通俗语言解答大众疑问,分享技术突破与行业思考。
当被问及非专业人士如何理解开源数据集筛选时,陈文光表示,此次鹏程脑海大模型的训练给出了初步答案——无需购买高价数据,仅用开源公开数据,完全可能训练出高水平模型。但开源数据存在“量大质杂”问题,可用“探针法”来筛选高质量数据,类似实验切片观察,取5%的数据做实验,判断周边数据质量,排除低质数据,最终实现“降成本、提效能”。如何优化这套方法,也是未来研究的方向之一。
“高质量数据训出的模型,用起来更‘好用’——说话有条理、幻觉少;低质量数据则会让模型逻辑混乱、错误率高。” 总结大模型训练的核心技巧,陈文光概括为以下几点:筛选高质量数据、使用高效去重工具、多阶段训练(后期增加高质量数据占比)、在国产算力上攻克技术难题,以保障模型训练效果。