智东西 9小时前
高考志愿填报,成了检验AI Agent的一场大考
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_font3.html

 

智东西

作者 | 毕伟豪

编辑|漠影

智东西 6 月 30 日报道,近期,高考出分后,志愿填报无疑是全国 1290 万考生家庭的头等大事,AI 辅助志愿填报也正在成为越来越多家庭的选择

近两年,AI Agent(智能体)快速崛起,以其强大的工具调用能力以及复杂任务处理能力,迅速成为很多人日常生活和工作中不可或缺的一部分。当 AI Agent 从聊天工具进入真实决策场景,应该用什么标准评价它?高考志愿填报就是一个高压测试场

过去评价 AI,很多时候看它答得准不准;但进入高考志愿这类真实决策场景后,评价标准变了:它能否理解复杂规则,能否调用权威数据,能否记住用户条件,能否在连续追问中不断缩小范围,并最终给出可参考的判断

近日,百度搭子 DuMate 上线了其首个面向高考志愿场景的信息助手 Skill,根据志愿填报场景专门设计,能力覆盖规则理解、数据分析以及综合建议等方面,为考生提供可以参考的决策辅助。

一、从搜索到判断:百度 AI 如何把分散高考信息组织起来

传统志愿填报的常态是,考生和家长在十几个网页中来回切换,去查询包括一分一段,高校招生章程,院校排名、就业情况等信息,甚至还得去各大社交平台搜校友评价。信息,网络上大部分都有,但它们分散在不同的地方,权威性、可靠性也各不相同

面对大量复杂、分散、难辨真伪的信息,百度搭建了一条从信息搜集到处理的搜索链,来提高输出结果的可靠性。

在信息搜集方面,DuMate 高考信息助手 Skill 采取了多源搜索加交叉验证的机制,启用该 Skill 后,DuMate 会同时从多个权威信源调取数据,包括各省教育考试院官网、阳光高考平台、高校招生网,以及百度搜索结果顶部的结构化阿拉丁卡片。

阿拉丁卡片是百度搜索推出的垂直结构化信息展示产品 ‌,用信息聚合的方式满足用户的特定搜索需求。此次,百度专门为高考场景定制了新的阿拉丁卡片,这张卡片包含招生政策、热门院校、专业查询、高考查分、一分一段表等多个功能入口,覆盖从查分到报志愿阶段的几乎所有搜索需求

DuMate 抓取这些数据后,并不是简单汇总然后反馈,它会将这些数据和对应的权威官网进行交叉校验,出现不一致的数据时,以权威网站为准以保证准确性。

在幻觉方面,DuMate在查询和处理所有涉及外部事实的数据时,默认进行实时搜索,模型本身的记忆仅用来做理解用户意图、复用考生画像等不涉及外部事实的事情,不会基于模型记忆做出院校推荐、专业排名等判断

除了信息全面、数据精准这些必备能力,对于高考志愿填报这样一个个体差异极大的场景,高考信息助手 Skill 能做的不仅仅是将信息查回来,其重点在于可以让 DuMate 所查到的信息、处理的过程、产出的决策报告,都围绕考生本人的个性化需求来推进,把志愿填报的相关信息以考生个人为中心组织起来。

比如在下方的测试案例中,智东西在 DuMate 中提出了相对比较复杂的需求,包括分数、选科方向、擅长科目、家庭情况以及未来规划等,DuMate 在确认需求之后,从一开始就按照我们提出的个性化需求来搜索信息,根据一线城市就业、强势学科等情况进行筛选,每一步的结果都基于用户画像。

在高考这个真实的决策场景中,百度的搜索和数据基础设施,是 DuMate 处理复杂任务的底座,但重点不是 " 信息搜得多 ",而是 " 把分散信息转化为可辅助判断的信息 ",高考信息助手 Skill 并不是简单的信息收集,是根据具体问题进行具体分析,提供可参考方案的决策辅助。

二、不仅仅是一问一答一张表,这个 Skill5 步走完整个决策链路

有人会问,这个 Skill 产出的实际效果看起来,就是一个比较长的回答,和一问一答的对话有什么区别呢?关于这一点,要从DuMate 的能力以及 Skill 本身的设计逻辑上去分析。

高考信息助手 Skill,实际上是 DuMate 能力的延伸、集中和强化,一切输出结果的质量都依赖于其本身的 Agent 能力。从表面看上去,DuMate 的输出好像只是一个结构化的文字方案,但从任务识别、画像采集到呈现结果,每一步都是 DuMate 在处理复杂任务时能力的体现

智东西仔细查看了 DuMate 高考信息助手 Skill 的设计结构,发现它的整体逻辑能够非常清晰地展示 DuMate 在面对复杂任务时,所表现出的 Agent 能力

高考信息助手 Skill 把一次完整的志愿填报辅助流程拆成了五个步骤:先分类、再采集画像、然后调取数据、最后分析输出,以及贯穿全程的记忆复用。这五个步骤本质上体现了 Agent 在处理复杂任务时所需要具备的几项能力:任务识别、用户画像、工具调用、数据验证、风险提示以及记忆复用

DuMate 在调用高考信息助手 Skill 处理任务时,第一步是分类。Skill 内部设计了一个路由,用来判断用户提出的问题属于哪个分类,比如是志愿填报,还是院校对比,Skill 会根据不同的分类进行模板的选择以及变化处理方式。

第二步是画像采集。画像有三个来源,除了用户所输入的提示词包含的信息,Skill 还内置了一套画像记忆系统,可以从用户的历史对话中读取已知信息补充画像,比如当我打开一个新任务,并隐藏掉我的文理科方向时,DuMate 从历史对话记录中找到了我是历史类考生这一点自动补充到了画像中。

此外,DuMate 还会根据当前问题的类型以及问题中的信息,去判断还缺什么关键字段,然后进行追问。比如用户问志愿填报时,DuMate 就需要包括省份、年份、科类、分数、位次、批次、偏好限制等信息的完整画像,如果仅问院校信息则不需要画像。

追问的实际效果是,用户不会感到自己在填表。传统查询类产品的做法是一上来就让你选省份、选科类、输入分数,填完一堆字段才出结果。

而 DuMate 把画像采集藏在对话里:你直接提问,它发现缺什么再问什么,一次性追问完,不反复打断。问完之后,用户画像采集也就完成了,后面的数据抓取、分析输出等步骤全围绕这个画像展开。

这一步也可以体现出DuMate 在跨轮次、跨会话执行复杂任务时的稳定性,通过三个来源的用户画像采集,保证复杂任务执行过程中不偏离记忆。

第三步是多源数据调用和交叉验证,也就是前面所说的搜集数据的方法,这一步能体现 DuMate 在工具调用和数据验证方向上的 Agent 能力。

DuMate 会调用三种抓取工具来搜集数据,根据 Skill 文件,DuMate 用 websearch 来找抓取数据的入口,用 browser-use 来抓取需要交互或反爬的站点,用 webfetch 来直接获取已知 URL 的网站,如果用户的问题是某所大学或者某个专业这种高频出现的结构化信息,DuMate 会直接启用 browser-use 来优先抓取阿拉丁卡片中的内容。

同时,高考信息助手 Skill严格规定了禁止数据捏造,凡是数据都要有来源,即使是百度搜索提供的阿拉丁卡片也要和权威网站的数据进行对比验证,完成之后,用户拿到的是经过比对、交叉验证的结构化信息。

第四步是分析输出。这里有一个明显的产品取舍:DuMate 不做唯一正确答案。它给出的是冲稳保梯度排序、卡线风险评估、不同院校和专业之间的条件化对比。

同时,DuMate 也不是要去做一个大而全的输出,就像 Skill 文件中写的,什么都说等于什么都没说,DuMate 会在提供多重建议以及风险提示的同时,根据用户画像给出最相关的几条方案。

最后一步是记忆,这一步不是一个单独的流程,是贯穿整个 Skill 运转的底层能力,这个能力来自于 DuMate 本身,Skill 里有这样一句话:

" 把采集到的考生画像写入记忆,后续对话读取复用,做到跨轮次、跨会话不重复追问。当用户更新信息(如修正分数)时同步更新记忆。"

在用户已提供的信息范围内,DuMate 会将与任务相关的关键信息沉淀为后续可复用的画像线索,减少重复追问。

这一点更加考验 DuMate 在复杂任务执行中,跨会话记忆保持、实时记忆更新的综合能力。

据官方介绍,DuMate 作为百度首推的通用智能体,具备类似 " 工作反思 " 的持续进化能力,会对每天的任务执行情况进行总结与反思、在持续协作中学习用户的工作习惯、任务偏好和表达方式等并写入记忆,在高考志愿填报这个场景下,其持续进化的能力被明显放大了。

整个志愿填报流程走下来,还有一点在 Skill 中写的非常清楚,那就是责任划分,百度始终认为 AI 高考志愿填报,永远只能是辅助决策,真正的最终决策需要人来做。

通过高考信息助手 Skill 的文件能看到,里面不止一次强调,DuMate 会基于搜集到的信息进行综合分析,并结合用户的具体条件给出区间化、风险提示式的参考,不会替用户武断下结论。

三、实时更新记忆、个性化定制分析,实测让 DuMate 梳理志愿方案

讲完 Skill 的底层逻辑,我们上手测了几个案例,不追求面面俱到,仅挑选了几个能体现 Agent 核心能力的角度。启用这个 Skill 也很简单,只需要在对话框中输入斜杠命令,然后选择 DuMate 高考信息助手即可。

首先,让我们看一下前面所提到的案例里,DuMate 在志愿填报中的基础表现,下面这张图就是 DuMate 调用高考信息助手 Skill 所输出的部分内容:

开头先给出了志愿填报的结论,然后表格按冲 / 稳 / 保三档排列,同时给出了具体专业的建议,能看到 DuMate 调用工具从多个渠道搜寻了志愿填报所需要的信息后,严格按照我们所提供的个性化需求进行分析,输出的结论相对比较合理,给出的建议丰富且中肯。

随后我们新开了一个任务,告诉 DuMate,自己对计算机和人工智能感兴趣,平时喜欢看科技类内容,问它有什么推荐的学习方向。输入提示词:

我对计算机和人工智能比较感兴趣,平时喜欢看科技类内容,有什么推荐的学习建议吗?

DuMate 给出了一些学习建议,虽然告诉我历史类考生不能报名计算机专业,但和我说未来可以转修或者辅修这个专业,同时让我不要把 " 历史类不能直接报计算机 " 当作限制,要把它当作走差异化路径的起点,做一个复合型人才。

接着我输入下面的提示词,让 DuMate 给我做一份学习计划:

未来也不一定转修这个专业,复合人才这个思路比较好,帮我做一个具体的学习方案吧。

DuMate 随即输出了一份内容详实的学习计划,还直接以 .docx 格式输出给我,方案中可以看到我的画像被放置在了最前面,作为一切计划的起点。

这两步虽然看起来和志愿填报无关,但目的是在测试 DuMate 到底能不能根据日常对话实时调整记忆并且复用,这项能力对于任务复杂性 Agent 来说非常关键。于是 , 我们新开对话并输入以下提示词:

虽然我是文科生,但我想进入人工智能行业就业,帮我推荐一下院校和专业。

提示词非常简单,只有少数关于志愿填报的信息,甚至连任务类型描述的都比较模糊。DuMate 加载了高考信息助手 Skill,随后进行了用户画像的读取、判断任务类型以及数据搜集等步骤,能看到DuMate 准确读取了画像,然后精准判断了任务类型,进入到调用工具抓取数据的阶段。

等待片刻后,DuMate 输出了一份 " 文科 +AI" 的志愿填报方案,方案结合画像,从专业和院校两个维度给出了具体的建议,在方案开头提供了最新开设的人工智能交叉专业,并且建议我优先选 " 计算语言学 " 或 " 商业人工智能 " 这类 2026 年新增的交叉专业,并结合政策方向、学科属性和招生条件做了参考分析。

实际体验下来,能感受到的是,DuMate 在处理复杂任务时,能够在跨会话中很好地保持记忆复用,同时在最新专业等信息的抓取上也非常灵敏。同时,DuMate 可以清晰理解用户需求并判断任务类型,进而输出准确回复。

通过高考志愿填报这个场景,可以看到 DuMate 能在广泛信息搜集的同时,通过交叉验证、权威性排序等方法,让生成的结果更加可靠,从中能体现出 DuMate 依托百度生态以及模型水平充分释放的 Agent 能力。

结语;不止高考,百度想做的是通用

每年 1290 万考生,对应的是一个信息密度高、规则复杂、个人差异极大的决策场景。AI 志愿填报产品这两年越出越多,但打法高度趋同:比数据全、比更新迭代频率快、比界面好看

而百度坐拥最大的中文搜索引擎,拥有进入高考行业最坚实的数据基础,但百度想要的不止这些。搜索只是底座,更关键的是百度能否把搜索、权威数据、结构化信息、模型理解和工具调用能力,重新组织成一个可持续执行任务的 Agent 流程

百度在芯云模体上的全栈自研,为 DuMate 提供了丰富的 AI 生态基础,而 DuMate 的搜索 Skill 能够把其中各项能力串成可用的任务链,这也正是百度在通用 Agent 领域的优势所在。

5 月的 Create 大会上,百度智能云公布了他们对 Agent Infra 的能力提升,其中Harness Engineering(驾驭工程)的全面升级,让模型、工具、记忆、Skills、MCP 和 Runtime 协同起来,不再是各自为战。此外,百度基于Token Factory(词元工厂),提升了模型调用和推理效率,显著提高了单位 Token 的智能化水平,从而应对各式各样的场景需求。

从 DuMate 已内置的系统技能来看,它正在连接百度搜索、百度地图、百度短视频等生态能力。高考 Skill 只是其中一个样本,背后真正值得观察的是:百度能否把这些原本分散在不同产品里的信息、服务和工具能力,通过 AI Agent 重新封装成面向个人复杂任务的执行链路。

这也是 DuMate 高考 Skill 对百度 AI 的意义:它展示的不是单一工具能力,而是百度 AI 从信息入口走向任务入口、从能力展示走向结果交付的一种路径

高考只是开始。当 AI Agent 进入更多真实决策场景,它最终接受考验的,不只是模型能力,更是整个 Agent 执行链路的可靠性

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

高考 ai 志愿填报 百度 考生
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论