
去年 5 月,科幻作者渊星成了一名数据标注员。工作简单来说,就是教 AI 写小说。
23 岁的渊星毕业于一所 "211" 高校,准备跨专业考研时,他找了这份过渡工作。他也想趁此机会了解 AI 的写作机制," 会不会有一天,AI 真的会取代人类小说家?"
这是一条新时代的流水线。从数据标注员,到质检员,到项目经理,再到大厂的正编团队,人们各司其职,把一篇篇爆款小说拆成各种层面的内容,作为数据喂给 AI。
像解剖一头牛,他们解剖小说的每一章节,既标注各种爽点,也给人物贴上 " 腹黑 "" 窝囊废 " 之类的标签。之后,他们还给 AI 提供 " 标准答案 ",评测、润色 AI 生成的小说。
在这里工作的半年间,这位年轻的写作者很大程度上缓解了 AI 焦虑。他看到了 AI 写小说的局限性,也在这个过程中重新确认自己写作的价值。
以下是渊星的讲述。这是 " 被追赶的人 " 专题的第四篇。
文丨卢冠秋 黄文玥
编辑丨周航

去年 5 月,准备第三次考研时,为了找份过渡工作,我进了一家大厂外包公司的写字楼,成了一名数据标注员。
招聘要求有写作经历,我从高中起就写科幻小说,也拿过奖,符合它的要求。面试时,HR 给了我一千字的小说章节,让我把它压缩成不到一百字的梗概,也就是 " 细纲 "。那是我头一次知道这个概念。
后来一段时间里,我每天的工作,就是把一篇万字左右的爆款网络小说,浓缩成一条条细纲。
我们 " 细纲组 " 有十多个年轻人,大多来自中文、新传专业,干过编剧的比较多。有人所在的剧组倒闭了,就来这里工作。公司尝试过让 AI 来抽细纲,但 AI 的概括非常干瘪,字数不到人工细纲的三分之一,还会丢失大量关键信息。
细纲有个要求:不能 " 类正文 "。比如只能写 " 他感到气愤,把杯子打碎了 ",但不能写 " 他被气得脸发红,把杯子打碎了 "。" 脸发红 ",属于有画面感的内容,是要留给 AI 生成的。或者说,要让 AI 明白,人类如果想要写一个人物生气了,会用 " 脸发红 " 来形容。这是大厂产品团队定的策略。他们会把细纲喂给自家 AI,让它写出一篇完整的小说。
我的很多同事,一直习惯不了干巴巴地写细纲。他们不少人总会下意识用文学化的表达,直到两个多月的项目结束,都存在 " 类正文 " 的问题。

●图文无关。图源 视觉中国
比起 " 类正文 ",我更头疼的是各种语病。一千字的章节,细纲不能超过 350 字,又不能漏情节,标注员会大量省略,比如把几个人的动作压缩到一个极长的句子里,还全部用 " 他 " 来指代。把人名都改成 " 他 ",可以省下几十个字。省到最后,句子压根不通顺,还得给它加回去。
项目经理说,严格限制字数既是因为模型单次能够处理的 token(大模型处理信息的最小信息单元)有限,也是为了减少字数波动对大模型识别的影响。如果一个章节的细纲是三百字,另一个写了五百字,模型可能会以为后者需要详写,但也许字数多的原因只是情节细碎。
小说标注项目一共有两个组。除了 " 细纲 " 组,还有另一个组,活更杂一些,要写 " 灵感 "、" 小标题 ",给人物贴上各种标签。大家都是 " 拆文 ",只是拆的东西不一样。
" 灵感 " 是整篇小说的梗概," 小标题 " 是段落的大意和作用。公司文档提供了段落的九个基本功能:开端、发展、高潮、反转、结尾,等等。我们从里面挑着用,再补充上 " 提供爽点 " 之类的其他作用。我们还要给人物写小传,用几个形容词,比如敏感、嚣张跋扈,以及绿茶一类的 " 人设 ",去概括人物。这是让模型学习,什么样的性格会做出什么样的行为。
做这份工作前,我没完整看过一篇网文。但看多了就能发现,即便网络小说里的人物比较刻板化,也远不是规则文档里那二三十个人设标签能概括的。
比如我们经常用到 " 绿茶 " 这个标签,但网文中 " 绿茶 " 的变体其实很多。有的人物真的喜欢男主角,没有恶意,只是说话软一点,在我看来这算不上 " 绿茶 ",可还是会被同事贴上这个标签。
我们经常感到,规则文档里的标签不够用。比如一个人前期很窝囊,后期觉醒了,那 " 窝囊废 " 就很难概括这个人物的弧光。这时候,我会向 AI 描述这个人物,让它提供几个标签,再从里面选。就这样我们自己编出了 " 逆袭者 "" 反抗者 " 之类的新标签。但也有标注员不认可,觉得网文世界里没有这种人设。
算法人员给我们介绍过大模型的基本原理,说是通过预测下一个词的方式来生成文本。但我还是不明白,AI 能不能理解什么是 " 爽点 ",什么是 " 绿茶 ",或者说,它是怎么通过数学化的方式去理解的。
(注:早在 2020 年,北京大学中文系一个研究项目,曾用人工标注赘婿文的方法,让 AI 学习识别 " 赘婿文 " 中的 " 打脸 " 结尾,初步证明了将抽象情节转化为具体数据标签的可行性。)
我也怀疑这种训练方式能否写出好小说。人类创作者也会学习创作技巧,比如很有名的《救猫咪》。但数据标注是反过来的。小说已经写好了,我们把它套进模板里。作者可能并不是按这个模板写的,比如并没有以刻板印象中的 " 绿茶 " 为目标塑造人物,但我们却要在标注的时候给它做模板化的处理。
后来做评测的时候,我们都有明显感受,AI 生成的小说比较刻板化,很难有真人写作的厚度。

网上对数据标注有个评价:" 赛博流水工 "。
我们公司属于驻场外包,服务的互联网大厂在一线城市有整片园区。我们在其中一栋楼里,整个标注团队有几百人,都给这家大厂的 AI 产品标数据。文本标注大类下,还有通用写作、剧本对话等其他小组。
我在那里的半年,大厂正编的产品团队来开过几次全员培训会。开会时候他们都会强调,标注数据质量如何重要,对模型的学习效果有很大影响。但不会讲具体的项目,也没有告诉我们某类数据到底怎样作用到模型。
大厂的正编人员会制定标注规则。但至少对小说项目来说,他们给的标注规则大多很笼统。怎样是一条高质量的数据?很多时候其实没有统一标准。
比如写细纲的时候,组里经常会有各种争议。在一篇 " 大女主 " 文里,原本逆来顺受的妻子,为什么突然觉醒,开始反抗丈夫和家庭?有的标注员认为转变的契机是朋友的一句话,有的人觉得是因为她真心付出却遭到丈夫冷漠对待。原作者写得并不清晰,大家各执一词。
标注员经常觉得质检员的标准有问题。为了工作留痕,大家就算紧挨着坐,也在群里讨论。有时争执不下,就由项目经理来定夺。

●互联网公司园区夜景。图文无关。图源:中国视觉
项目经理也总觉得,一篇小说表达什么,应该有一个标准答案。有一次例会,她举了鲁迅那句 " 我家门前有两棵树,一棵是枣树,另一棵也是枣树 " 作为例子。
" 很可能鲁迅当时只是随手一写。" 她说,接着问我们:" 写段落作用的时候,究竟是应该从读者的角度考虑,还是从作者的角度考虑?"
这个问题在我听来有点业余。我觉得文本一旦诞生,就和作者没有关系了。哪怕作者没有这么想,如果很多读者都认为这是刻意设计的,我们也应该告诉 AI,作者就是故意设计的,这样写会更好。这样才能从小说里提取出一套写作方法。
可世界上那么多读者," 很多读者 " 到底指的是哪一批读者?我们的工作某种程度上是充当标准读者,但说到底,也只是站在自己的角度去解读。
有的时候,我们也只是尊重 " 爆款 " 本身。比如一篇主打 " 大女主逆袭 " 的网文里,女主角一边说着要摆脱家庭、和丈夫离婚,一边又用着前夫的资金、人脉做成自己的事业。我能看出来作者想把她塑造成正面人物,但水平不太行,导致逆袭叙事不太成立。但我们还是会遵照作者原意,给女主角打上 " 大女主 "" 逆袭者 " 的标签。毕竟是 " 爆款 ",说明还是有不少人吃这一套。
后来工作三个月时,换了个编剧出身的项目经理,明显能感觉她对小说的理解更深。但不是说她能定下服众的标准,而是她理解大家对小说的理解有差异,会尽量采取折中的方式。
刚开始的时候,大家觉得教 AI 写小说是一件有趣的事。但真的做起来,会发现数据标注重在执行规则而非创造,很快就会觉得枯燥。
我在的半年时间,两个人没过试用期,另外主动走了四个,有一个人入职一周就辞职了,他觉得工作太机械化,和预期不一样。离职的都是标注员,没有质检员。标注员处在流水线的最末端,会觉得自己一直在被否定。从他们的视角看,这份工作就是不断做,不断被其他人挑刺,没有人来告诉我,我写得特别好。时间长了很压抑。
留下的人其实也都抱着临时过渡的心态。这个行业上升空间小,整体流动性大。我去复印考研资料的时候,还看到其他人印的考教资、考导游证的资料。

细纲项目做了 2 个多月就停了。没有人通知我们为什么停,可能是因为训练效果不好。那之后,我们做了一段时间的评测。
算法团队基于同一个提示词,让自家模型和国内外的竞品模型生成小说。我们要给每篇小说打分,再填存在的问题。问题有详细的清单,分为人物类、文风类、逻辑类、结构类、剧情类、指令遵从等。
公司也给出了 " 好小说 " 的明确标准。比如紧张情节与舒缓的情节,是否满足 1 比 1.5 的比例。不知道这个怎么算出来的,也可能是 1.5 比 1,我也不记得了。又比如主角要立体,有清晰的成长与转变;配角要扁平,不能抢掉主角的风头。
文风类里,有一项问题是 AI 感太重。虽然 AI 感本身也是模糊的概念,但刚开始我可以很明显区分出 AI 感,后来看得多了,我发现自己分辨不出来了。做细纲项目时,有时候项目经理也问,你写的这个是不是 AI 感太重了,但他也不确定。我觉得这个事挺恐怖的,也许再待上半年一年,我就写不出小说了。
评测过程可以发现,每个模型写的小说都是高度模板化的。彼此的模板还不一样。有些模型它可能前期剧情节奏特别快,然后中期剧情就停滞了,开展一些莫名其妙的支线后,又突然结尾。也有的模型可能剧情节奏还好,但人设就比较扁平,特别刻板。
评测满分 3 分,我们自己做的那款 AI,在评测中总是垫底。一般只有 1-2 分。这应该也是用户的感受。我们能看到后台用户的输入,80% 都是让 AI 写同人文,用来磕 CP 的。但它写出来的角色行为经常和性格严重不符,基本上只能保证性别是对的。
我们分批次做了好几轮评测,模型有一些进步,但不是很明显。一个前面极其窝囊的人,还是常常因为一件小事莫名其妙地觉醒。表现好的模型也会出现这些问题,只是没有那么严重。
去年 11 月,我提了离职,专心准备考研。那时候细纲项目已经停了 4 个多月,除了做小说评测,我们一直在支援其他组的项目,意图识别、应用文写作,乱七八糟的。
离开后,我一直在想,为什么 AI 写小说的能力,远远落后于它做很多事情的能力?
我的思考是,AI 模板化写作能力比较强,比如工作总结、周报月报、会议纪要等等。但写小说没有那么明确的 " 操作方法 "。读小说的人,也不是只想了解发生了什么事,而是想透过语言去感知作者的生命体验。这种共情是很直观的,不是逻辑推理的结果。AI 在迭代,它的文风也在不停地迭代,有些问题已经不太会出现了。但我觉得它永远做不到用数学化的方式,按步骤触发人的情感。
我自己写小说,很多时候来自于生活中的刺痛。我第一次写小说,是高三的晚自习,那时候我很抵触学校的衡水模式。小说叫《地震降临之时》,大概有六七千字。主角的血液可以感知磁场的变化,因此被某个机构抓去做研究。我高中时写的基本都是这种风格,故事里的体制是黑暗的、迫害人的,主角最后往往会因为想要反抗,走向悲壮的死亡。

●渊星高中时写的科幻小说。讲述者供图
在 " 小标题 " 项目里,我们需要明确告诉模型,每一个段落表达的情感是什么。很多时候这种概括是正确的,比如悲伤,但即便是明确的情绪,也是立体的、丰满的,一旦用悲伤总结,它就扁平了。在人类身上," 悲伤 " 是理解的结果,在 AI 那里,这却是理解的媒介。正因如此,模型写作时也会按照套路,输出各种各样扁平的情绪。
做小说标注的经历,也让我对自己的写作有了更多思考。这几年,我总在模仿经典作品的情节和叙事方式,但大多数时候,结果都不太好。反而那些以自己生活体验为源头写出来的东西更自然,情绪也更饱满。
可能这就是 AI 和人类创作最大的区别。AI 只是在模仿结果,它没有办法真正的创新,之所以能读出来是 AI 的,我觉得因为它是空洞的,文字背后没有真实的生活做支撑。
我喜欢聂鲁达的《看不见的河流》。他在青年时描写家乡的自然风光,中年开始投身社会革命,最终在真正的失败到来前去世了。那我们要如何评价他为之奋斗的一生呢?这就很有厚度了。我觉得 AI 永远无法给读者带来这样的体验。
(本文系极昼工作室 " 大学生非虚构写作项目 " 作品。)


登录后才可以发布评论哦
打开小程序可以发布评论哦