深度评测：PromptPilot，字节跳动的“提示词工厂”

文 | 锦缎

下面的情景是不是有些似曾相识？

当满怀期待地给 AI 大模型下达指令，比如 " 帮我分析一下这周的股价走势 "。

等待数十秒后，得到了一份空洞无物，只有数据罗列的通用模板，令人大失所望。

转念一想，不应该啊，之前看过的短视频里介绍 AI 都和点石成金一样：

有的人能用 AI 在朋友圈、小红书和微博上追逐时尚潮流生成爆款文案；

有的人能用 AI 生成胜过资深程序员编写的高质量代码；

有的人能让 AI 充当各领域内的行业专家，随随便便来一份分析报告都不在话下；

同样是 AI，天差地别的结果。

不同的 AI 大模型之间能力存在差距，这是事实。

但造成这一差异的更为主要的原因在于，使用 AI 的方法，也就是提问的方式。

我们注意到，为了降低使用门槛，加速 AI 大模型应用普及，各大厂也在 " 提示词工程 " 上下大心思。PromptPilot，便是字节系的大模型提示词解决方案平台。

以其为样本，本文将就 " 提示词工程 " 与字节系的 " 提示词工厂 "，一探究竟。

01 提示词的演进过程

人与 AI 沟通的媒介，即为提示词（Prompt）。

有人会问：" 写 Prompt 不就是打字提问吗？"

非也，这是一门学问。

这门学问在 AI 诞生至今的短短几年内，已经经历了从 " 远古时代 " 到 " 现代 " 的飞速进化。

简单了解一下提示词的发展路径，或许能够帮助理解为什么我们需要更 " 工程化 " 的思维。

Stage.1 " 魔法咒语 " 时代

这是最早期的阶段，但也是大多数人目前所处的阶段。

使用 AI 大模型和使用搜索引擎的方法并无两样，就像最初大家在使用 GPT3.5 时，只需要随意抛出问题，就可以把 AI 当作百科全书使用。

这个阶段的提示词特点也很鲜明，" 一问一答，简单直接 "。

当然，使用效果也有些靠运气。对于一些需要思考、推理或创意的任务，AI 的回答时而惊艳，时而平庸。

Stage.2 " 启蒙与引导 " 时代

此后，AI 的发展速度远超人们的想象。

研究者和 " 高级玩家 " 们发现，AI 就像一个孩子，直接下命令，它有时根本听不懂。

但如果给 AI 一些适当的提示和引导，有助于孩子的成长，最终得到更好的结果。

在这一阶段，诞生了两种里程碑式的 AI 使用方式：

一是示例学习：在向 AI 正式发文之前，先给出范例，让 AI 进行模仿；

二是思维链路：不是直接生成最终答案，而是像做中学数学题一样，必须把过程写清楚，最后给出解答。思维链路的出现，使 AI 在计算、推理和逻辑类任务中取得了巨大的飞跃。

因此，这时的 AI ，虽然本质上只是一段早已编写好的程序，但它也可以被视为一个可以教导和启发的学生。

Stage.3 " 系统化工程 " 时代

这是我们现在所处的时代。AI 产品五花八门，其能力已经达到 " 逆天 " 的水平。

简单的小技巧已经无法有效驾驭 AI，是时候设计出一套系统化、规范化且可复用的方法来更加有效地利用 AI 了。

因此，不论是 LLM 应用开发平台，还是各家厂商最新版本的 AI 大模型，如果让它们自动生成提示词，都已经不再是零散的指令，而是采用一个包含角色、背景、任务、规则、输出格式和限制等元素的结构化框架。

其目的也很简单，让 AI 的输出稳定、可控、易于复制。

02 提示词工程

" 提示词工程 " 是什么？

AI 给出的回答是：" 一门设计和优化提示词的科学，旨在更有效地与大型语言模型进行沟通，从而引导它们生成更准确、更相关、更高质量的输出结果。"

如前文所述，提示词的重要性源于 "Garbage In, Garbage Out" 原则，AI 模型的输出质量直接取决于输入提示词的质量。

优质的提示词，最重要的功能在于有效减少 AI 出现 " 幻觉 " 的概率，使其回答更加贴近现实和用户意图。

同时，提示词有助于发掘 AI 的 " 潜力 "。相比简单的指令，提示词工程可以让 AI 实现更多功能，比如编写代码、市场分析、创意生成等更加复杂、更加抽象的任务。

此外，用户还可以对 AI 的回答添加格式、语气、长度等约束条件，灵活地调整答案的展现形式，同时节约调试时间。

对于编写提示词的方法，Gemini 2.5 Pro 给出了名为 R.O.L.E.S. 的法则，这里选择构建工作流时使用的实例：

R - Role（角色）：你希望 AI 是谁？

这是 AI 使用者在编写提示词时最容易忽略的一步，因为我们常常上来就直接把问题抛给 AI。通过赋予 AI 一个具体且专业的角色，能够激活它在该领域的知识库，使其回答更具深度和专业性。

例如：

# 角色

你是一个顶级的金融数据分析师，能够解析用户的请求，并为后续的数据库检索程序准备一份精确的数据需求清单。

O - Objective（目标）：你想完成什么核心任务？

用户需要清楚地告诉 AI 最终目的是什么。不要担心语言过于繁琐，AI" 听不懂 " 的是短句，而不是长难句。任务越明确，AI 的行动路径就越清晰。

# 核心任务

你的任务是分析用户关于 " 谷歌 "（别称：Google）的指令 "{{query}}"。你的最终输出不是直接回答用户的问题，而是列出为了回答这个问题，必须从我们的财务知识库中检索的 ** 所有基础数据字段 **。

L - Limit&Constraint（限制与约束）：有哪些规则必须遵守？

AI 作为一个自由创作的作家，输出方式向来是不拘一格。要想获得准确的结果，就必须对其加以限制和约束，包括但不仅限于风格、语气、字数、禁止事项等等。

例如：

# 输出要求

- ** 严格遵循格式 **: 严格输出由 ` 键 : 值 ` 对、逗号 `,` 和分号 `;` 组成的字符串。

- ** 纯净输出 **: 不要包含任何前缀、解释、引号、空格或任何其他多余的文字。

- ** 空处理 **: 如果指令与谷歌的财务或市场数据完全无关，输出 NO_QUERY`。

E - Examples（示例）：有没有可以参考的例子？

如果用户的要求比较复杂或独特（比如某一个细分领域），那么提供给 AI 一个具体的例子会是比较高效的沟通方式，这有助于让 AI 迅速理解用户期望的格式和风格，而不是通过多轮对话让 AI 不断去尝试。

# 示例

* * 用户说 *: " 谷歌的收入和市值是多少？"

* * 你的思考 *: 用户直接要 " 营业收入 " 和 " 市值 "。这是基础指标。

* * 最终输出 *: 营业收入 , 市值

S - Steps（步骤）：完成任务需要分几步？

对于较为复杂的任务，就轮到之前提过的 " 思维链路 " 出场了。一次把任务灌输给 AI 通常得不到理想的结果，但如果能引导 AI 按照步骤思考和执行，就可以大幅提升输出结果的逻辑性和准确性。

# 步骤

首先判断用户指定的财务指标是否能够从给定的财报中直接获取；若不能获取，再根据计算公式获取相关指标；最后分析该指标的含义。

对于上面这套法则，还有一些需要注意的细节：

第一，提示词的编写并没有严格的规定，上面的五个部分可以按需修改；

第二，给出的例子中可能包含 {}、**、等符号，这些符号也是提示词工程中的小技巧，每种符号都具有特定的功能，可以把一个纯自然语言的段落转变成一个类似于 " 程序 " 的指令集。

03 字节的 " 提示词工厂 "

在明确提示词的编写流程后，就该思考这套方法的实用性了。

很明显，如果按部就班地完成每个步骤，工作量已经接近于写一篇作文。

换个角度来看，我们需要使用提示词让 AI 完成任务，而写提示词恰好就是一项任务。

因此，我们可以再偷个懒，干脆让 AI 把提示词也帮着写完得了。

字节在 6 月推出了一款名为 PromptPilot 的产品，是面向大模型应用的全链路优化平台。

平台介绍中提到，该产品不仅可以提供精准、专业、可持续迭代的提示词，还可以覆盖大模型开发从构想、开发部署到迭代优化的全过程。

该产品免费试用至 2025 年 9 月 11 日，链接：https://promptpilot.volcengine.com/home

眼见为实，下面我们来试用一下看看效果如何。

主界面 UI 看上去很简洁，功能主要有三个：Prompt 生成、Prompt 优化和视觉理解 Solution。

由于本篇文章主要讨论提示词相关内容，因此只介绍前两个功能。

图：PromptPilot 使用流程图

对于没有提示词编写经验的用户，可以直接在平台上生成结构化的提示词：

图：生成提示词界面

任务描述并不需要太复杂，只要表达清楚就好，也不必担心描述不够精细，后面还可以进行调整。

这是平台生成的初版提示词，虽然尚不完备，可能与用户的详细需求仍然存在差异，但其效果已经远比使用短句给 AI 下达命令要好。

接下来，需要验证这份提示词的效果究竟如何。点击 " 验证 Prompt" 进入调优环节：

图：选择调优模式

PromptPilot 提供了两种调优模式，评分模式类似于 " 简答题 "，需要用户填写分数、评价意见（可选）和理想回答（可选），GSB 比较模式则类似于 " 选择题 "，需要用户对答案进行比较，并给出 Good、Same 和 Bad 的判断。

提示词的重要性我们已经提过很多次，因此更推荐选择评分模式。

图：调优界面

选择评分模式进入调优界面后，需要进行几项设置：

首先，如果用户觉得提示词无法满足需求，可以使用 " 一键改写 Prompt"。

然后，在提示词中可以看到熟悉的标识 {{AI_NEWS}}，表示这里需要填入相关领域的 AI 新闻。点击 " 填写变量 "，将新闻内容粘贴进去即可。

PromptPilot 还提供了一项很贴心的服务：AI 生成变量内容。

也就是说，如果我们并没有足够的新闻，就可以让 AI 现编一条。这个功能在不需要信息真实性的情况下能帮上大忙，快速构造数据集就靠它了。

不过，我们需要真实新闻才能发布文章，而有些聪明的模型可以识别出虚假的新闻，因此这里还是不要使用 AI 生成变量内容。

最后，在模型回答窗口中可以自由选择大模型版本，其中 DeepSeek 和豆包的部分版本免费。

这里，考虑尝试一下豆包的新模型：Doubao-Seed-1.6-Thinking，开启深度思考功能。

完成上述设置后，点击 " 保存并生成模型回答 "，平台会调用选择的模型，按照给定的提示词开始编写文章。生成文章后，需要点击 " 添加至评测集 "。

只靠一篇文章是无法衡量提示词质量的优劣的，因此我们需要更多的数据来进行评判。

图：评测数据集界面

与前面的操作相同，我们需要把新闻粘贴至评测数据集中的 AI_NEWS 一列。

点击 " 生成全部回答 "，模型开始编写对应的文章。

评分同样可以由 AI 完成，点击 " 智能评分 "-"AI 评分标准 "-" 生成评分标准 " 即可获得一套较为详细的评分标准，用户可以在此基础上进行修改或是直接使用。

开启智能评分功能后，AI 在文章编写文章后会自动生成评分及理由。需要注意的是，智能评分功能并不完善，经常出现全是满分的情况，而这样的评分对于调优 Prompt 没有意义。

当然，这个环节也可以由我们手动完成，主观的评阅意见能够使文章的风格更接近于理想中的状态。但新闻数量较多时，人工评阅的工作量还是有些过大。

这个时候，就又轮到 " 老朋友 " 工作流登场了。

既然 PromptPilot 是火山引擎的工具，而大模型我们又选择了豆包，因此工作流我们也选择字节系的 Coze 进行开发。

图：AI 生成文章评分工作流

工作流的结构很简单，开始节点接收两个参数：news（原始新闻）和 article（AI 生成的文章）。

大模型节点用来进行评分，同样将上面两个参数作为输入，并开始编写提示词。

既然研究 AI，当然提示词也要让 AI 来生成。需要注意的是，适当提高文章评分的区分度，有助于提示词的优化。

因此，我让 AI 生成了一份评分标准，并告知需要严格评判产生区分度，并生成了对应的结构化提示词。

图：AI 评分提示词 |

提示词编写完成后，大模型节点的模型同样选择豆包 · 1.6 · 深度思考 · 多模态。

现在，只需要运行工作流，把新闻原文和 AI 生成的文章粘贴进去就可以得到评分及打分理由，完成后粘贴到 PromptPilot 中即可。

最终，数据集包含 36 条新闻及对应文章，开始进行提示词的智能优化。

图：智能优化界面

可以看到，平台推荐的数据是 50 条以上并给出理想回答，但这并非必须。只有评分是必须项。

智能优化环节花费了约 17 分钟，迭代了 28 次，结果如下：

图：智能优化结果

这样，我们就得到了一份优化后的提示词，相比上一版提示词增加了更多任务描述和细节。

下拉该页面还可以看到根据新的提示词生成的文章，这里就不一一展示了。

但还请不要忘记，提示词工程并非到此而止，而是可以继续通过添加数据、评分和理想回答的方法进行下一轮优化，直到它能够完全满足需求。

至此，我们已经掌握了一套标准化的用于优化提示词的方法。

而事实上，这个过程就是我们常常提到的——强化学习。

04 结语

回到最初的问题：为什么同样的 AI，在不同人手中会产生天壤之别？

答案正是提示词工程——与 AI 高效写作的艺术与科学。

它并非计算机行业的专利，而是未来人们需要具备的基础素养。

掌握它，意味着驾驭 AI，拥有放大自身价值的能力。

然而，知易行难。" 知道 " 结构化提示词的重要性，与 " 做到 " 在每次向 AI 提问时熟练运用，中间还存在一道不那么容易跨越的鸿沟。

坦诚地说，字节跳动当前版本 PromptPilot 远非完美，也绝非终点。

请不要指望它能一键生成满足所有精细化需求，同时还拥有绝佳效果的 " 神级 " 提示词。

在面对较为复杂或创新需求的任务时，我们会清楚地感受到它提供的框架仍然有所局限。

同时别忘了，它也有一定的使用门槛，需要我们花时间去学习、去配置、去适应。

但与此同时，这也揭示了 PromptPilot 的核心价值：它并非 " 答案机 "，而是 " 思维矫正器 "。

在学习和使用 PromptPilot 的过程中，它强行打破了我们用大白话随口一问的惯性。

它的结构化编辑器更像是一个 " 思维脚手架 "，也许本身并不美观，但能保证搭建出的建筑地基稳固、结构完整。

而它的存在，能够帮助那些面对 AI 聊天框总是无从下手，或是因 AI 输出质量不佳而苦恼的用户，完整从 0 到 1 的初次跃迁。

它的目标用户，并非那些随手写出上百字的复杂指令的提示词工程师，而是每一个希望告别低效提问，着手建立系统化和结构化思维的 " 学生 "。

最终，在熟练掌握思维模式后，我们可能不再使用 PromptPilot，但已经具备了与 AI 高效对话的底层能力。

而这，正是 AI 时代真正的通行证。

宙世代

一起剪

相关标签