千问多项指标达资深咨询师水平人机互补成最优解

日期：06-30

字号：大 中 小

版面：第A18版：特刊上一篇 下一篇

6月24日，各地高考陆续出分，志愿填报进入冲刺阶段。然而，比分数更早引发讨论的，是一份关于高考志愿规划师的调研。某高考资讯平台向媒体披露，超九成高报师会在日常工作中使用AI，其中六成提到了能直接生成志愿报告的千问。整个志愿填报过程中，查院校信息、生成志愿方案草稿是AI参与的最高频场景。

志愿填报争议关注焦点：

高价服务与AI工具之间的边界

数据一出，争议随之而来。

有网友质疑，若高报师只是将免费的AI方案重新包装、高价售出，无异于“黄牛”行为。也有网友认为，志愿填报终究看结果，只要能让孩子顺利录取，方法本身无可厚非。山东一位家长的无奈颇具代表性：他明知道咨询师可能用了AI，但孩子12年苦读不敢冒险，“花钱买心安”成了许多家庭的选择。

争议的焦点或许不在于AI能不能用，而在于高价服务与AI工具之间的边界在哪里。

对此，资深高考研究专家姜殿军表示，AI提效和发挥高报师专业性不冲突。他坦言自己也将千问纳入了日常工作流，并表示会主动推荐学生和家长一起用，“AI可以在志愿填报的前期给考生和家长一些引导，等他们有了这些基础认知，对话就可以省掉很多前置环节，更高效地进入到具体方案的讨论。”

但他也强调，AI尚不能代替人类高报师面对面共情，以及挖掘考生的真实需求。

首个高考志愿AI测评发布

千问在稳定性、精确性、结构化表达上表现突出

这一判断在一份专业测评中得到了印证。6月23日，国内首个针对高考志愿填报场景的AI能力测评报告《高考志愿AI测评基准》发布。此前，友松实验室完成国内首个高考志愿填报场景AI能力测评，以千问高考志愿填报Agent为测评对象。结果显示，千问在多项表现上已达到人类志愿咨询师水平，在稳定性、精确性、结构化表达与效率层面具有优势。报告同时指出，亲子协商、价值取舍等复杂场景仍需真人介入，二者形成互补，才能让志愿填报既提高准确性，也更贴近考生和家庭的实际需求。

友松实验室是一个专注人工智能与教育决策研究的独立研究团队，长期关注大模型能力评估、教育场景中的AI应用，以及学生升学选择中的信息、认知与决策问题，研究成果被多所高校、科研机构采用。此次发布的测评基准，旨在为快速涌现的高考志愿AI产品建立一套公开、可复现、可扩展的评估框架，明确AI在当前阶段能够承担的任务边界。

考虑到千问高考Agent基于夸克8年高考服务数据与经验构建，在产品形态、数据积累和用户覆盖上具有行业代表性，报告将其列为首个测评对象。人类对照组则由53名志愿填报咨询师组成，平均从业年限4.6年。

测评覆盖高考志愿基本事实与规则、模拟志愿填报、开放式咨询和志愿推荐报告四个环节，对应考生和家长填报志愿时从查资料、看规则，到排方案、做决策的主要流程。

结果显示，在44道客观题中，千问全部答对，准确率为100%，人类咨询师平均正确率为89.3%；在模拟志愿填报中，千问方案包含6个可录取志愿，未出现显性偏好违背，并命中事后评估的最优结果，人类咨询师平均为5.3个可录取志愿；在开放式咨询中，评审专家在100场匿名对比中，有58次更倾向选择千问版本，“可直接向学生和家长展示的”可直接展示率为56.0%，高于人类咨询师回答的33.0%，认为其在专业路径拆解、风险提示和表达清晰度上更为稳定。

报告认为，在测评设定的任务范围内，千问的多项表现已达到资深人类咨询师水平，尤其在稳定性、精确性、结构化表达与响应效率方面呈现出优势。

但报告同时指出，人类咨询师的价值同样不可替代。尤其在收入预期、就业判断等需要结合个体情况谨慎校准的话题上，咨询师更能给出贴近实际的建议；在亲子协商、价值取舍等场景中，结构完整的AI方案也无法替代人与人之间的沟通和判断。

报告建议，AI更擅长高效完成信息核验、资料整理和方案初筛，人类咨询师则可更多聚焦家庭沟通、价值取舍和个性化判断。二者形成互补，才能让志愿填报既提高准确性，也更贴近考生和家庭的实际需求。南京晨报/爱南京记者杨静

千问多项指标达资深咨询师水平 人机互补成最优解

日期：06-30 字号：大中小 版面：第A18版：特刊 上一篇 下一篇

千问多项指标达资深咨询师水平人机互补成最优解

日期：06-30

字号：大中小

版面：第A18版：特刊上一篇下一篇