开源数据也能训出高水平模型

日期：12-05

字号：大 中 小

版面：第B05版：要闻上一篇 下一篇

本报讯（光明新闻记者杨曦）昨日，鹏城实验室智算部主任陈文光在接受记者采访时，用通俗语言解答大众疑问，分享技术突破与行业思考。

当被问及非专业人士如何理解开源数据集筛选时，陈文光表示，此次鹏程脑海大模型的训练给出了初步答案——无需购买高价数据，仅用开源公开数据，完全可能训练出高水平模型。但开源数据存在“量大质杂”问题，可用“探针法”来筛选高质量数据，类似实验切片观察，取5%的数据做实验，判断周边数据质量，排除低质数据，最终实现“降成本、提效能”。如何优化这套方法，也是未来研究的方向之一。

“高质量数据训出的模型，用起来更‘好用’——说话有条理、幻觉少；低质量数据则会让模型逻辑混乱、错误率高。” 总结大模型训练的核心技巧，陈文光概括为以下几点：筛选高质量数据、使用高效去重工具、多阶段训练（后期增加高质量数据占比）、在国产算力上攻克技术难题，以保障模型训练效果。

开源数据也能训出高水平模型

日期：12-05 字号：大中小 版面：第B05版：要闻 上一篇 下一篇

日期：12-05

字号：大中小

版面：第B05版：要闻上一篇下一篇