36氪 2小时前
学历卡到985硕博,你我都是AI人肉标注师?
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

出品 / 36 氪(ID: wow36kr)

作者 / 谢红婷  

AI 需要标注过的数据来帮助它们更理解人类世界,而这些高薪数据标注员,做的正是这一步的工作。难道人类中最聪明的一批年轻人,真的正在协助 AI,亲手消灭自己的未来?

刚好,作为一个正经 985 毕业的 " 前浪 ",我真的去面试了这些传说中月薪过万的数据标注岗,带大家一同探探深浅。

朝 9 晚 6,不加班不驻场

毕业即薪水过万

海投了一圈简历之后,在一栋老旧的写字楼里,我见到了一位招聘负责人。她告诉我,我应聘的岗位,是某个大厂的外包,好处是不用真的去大厂里 " 跳动心脏 "。

朝 9 晚 6,不加班、不驻场,工作说难不难,说简单也不简单。

在数据标注这个行业中,拉框、声纹、教 AI 认猫认狗、语音识别 …… 难度属于 " 宝宝巴士 ",主打一个便宜、量大,有手就会。

国外的科技大厂,一般包给菲律宾、肯尼亚人来做,国内的二三线城市也类似的 " 零工岗 "、"AI 扶贫岗 "。

而需要 985、211 毕业生来做的数据标注项目, 则是速度与激情的级别。不仅需要给 AI 当判官,指出 AI 生成的不当之处,还得绞尽脑汁在自己的专业领域内给 AI 出题。

问题清晰、有条理只是基操,而且你出的问题,市面上的主流模型最多只能答出 40%,换句话说,你要想办法难倒 AI。而所有的努力,都是为了让 AI 的回答从 40 分训练成 80 分。 让它进一步理解人类的模式,变得更加聪明。

一位 " 文生文 " 负责人对于这项工作给出了更详细的解释:

" 我们需要给模型设定一些考点或参考答案,它答对了,就能拿到分。当前的大模型培育方式主要是用 check list(结构化的评判标注),现在也会进化到 rubric(评分标准)。如果 check list 是 60 分的参考答案,那 rubric 可能是 80 分甚至 100 分的参考答案。所以在培训期我们会投入大量时间,专门培训大家 check list 的书写方式。 "

这么复杂的任务,工资是底薪 8000,绩效最高能到 6000。而对于大部分人来说,都能拿到中间档位的绩效 3000 元,所以综合薪资也在 1 万以上。

老实说,如果是 985 文科刚毕业,1 万多的薪水确实还算有竞争力。负责人直接告诉我,我的学历符合要求,可以参与下一步 " 试标 ",7-10 天的培训和考核通过后,就能正式入职。

给 AI 当老师改作业

它聪明了,人麻了

接下来,我们又找到了真的在大厂的外包数据标注岗上过半年班的渊星进一步了解,身为科幻作者的他,加入的是小说组。

渊星的主要工作是让模型写短篇小说,在特定的测评项目中,他会针对同一个指令让 5 个大模型参与回答,每个模型都会写一万字甚至更多,加起来总数高达几万字。而这些海量的回答内容,都需要标注员仔细审阅和评估。

看大神写的网文是一回事,看 AI 写的网文又是另外一回事。

相当于老师改作文,不过你的五个学生都是 AI。哪里有语病?逻辑结构有没有问题?这些标签都得打好,完了还得选出最佳创作,自己上手给 AI 示范一下什么叫真正的 " 人味儿 "。这整个过程,堪称折磨。

渊星的真实感受是:AI 大部分写得是比较烂的。而且时间一长,也会给自己带来很大的消耗,旁人看起来非常 AI 的表达,渊星坦言已经看不出区别了:" 至少在上班期间,我是完全没有创作欲望的,每天看 AI 写的东西就已经很折磨了。"

关键是一通狠狠折磨之后,到手的钱也没想象中的多。

因为绩效跟标注量挂钩,不是每条数据,都能通过质检专家和算法工程师的检验。你觉得 AI 回答到这个程度能给 80 分,质检觉得只能给 60 分,数据要返修,量就很难做起来。

给 AI 做 " 人肉电池 ",远比想象中消耗。无论是 985、211 学历,还是大厂机会、AI 机遇,这些光鲜的标签,都掩盖不了这个岗位处于 AI 产业链下游的事实。

在渊星看来,标注员不能直接接触到产品和算法。规则的制定、任务的下方,是产品和项目经理对接,项目的经理再传达给标注员。渊星直言:" 就好像项目经理比较高贵,标注员就比较 low,不能和他们坐在一个会议室开会。"

面试我的 HR 直接表示,如果只是做标注,无非是从一个项目跳到另一个项目,没有晋升空间。但她也觉得 " 给 AI 打螺丝 " 的说法太过悲观,随机安慰我说:" 标注员更像一个老师,模型能不能变聪明?模型给用户的体感如何?源头都在于数据质量的好坏。"

只是,对一线标注员来说," 模型变聪明 " 跟自己有没有关系,很难感知到。更多的人和渊星的感受一样,觉得自己在做无用功。

每一个人,

都参与在投喂 AI 的义务劳动中

在加州工作的 Jiayi 拥有研究生学历,从事图像数据标注工作已有一年半时间,她同样有类似的困惑。

她表示就目前的工作而言,自己完全不知道所接触的数据训练会产生怎样的后续影响:不清楚它的目标、不知道它是服务于哪个机器的,更不觉得自己真的可以学到实用技能。

名校生精心标注的数据,对于 AI 的进化,就像是聚沙成塔中的那一粒沙子。AI 建造了一座从未有过的高塔,人类奉献的每一粒沙子都很重要,但身处其中,沙子也很难看清楚自己之于整体的意义。

高质量的数据集,是人工智能研究的核心。

被称为 "AI 教母 " 的李飞飞在 2009 年推出了 ImageNet 数据集,1500 万张图片,覆盖 2.2 万个类别。帮助她完成如此庞大工作量的,是通过亚马逊众包平台(Mechanical Turk)接单的 4.8 万名零工。

对数据质量的强调,让 AI 越来越聪明。给 AI 当 " 老师 " 的人,也开始被层层筛选,卡学历只是个开始。数据标注早已从劳动密集型产业,变成了一条门槛不断被抬高的赛博流水线。

从一线标注员升职为项目经理的 Leon 透露,自己在某大厂后期的主要工作目标,就是通过自动化 PE workflow agent 的手段,来实现自动的评测或标注动作。

AI 正在进化到自己训练自己,在这场轰轰烈烈的硅基进化史里,哪怕是再昂贵的碳基大脑,也许也注定是用来完成技术闭环的燃料。

实际上,使用 AI 的每一个人,都参与进了这场投喂 AI 的义务劳动之中。

你和 AI 的每一次对话,都可能成为数据标注员评测和精标的素材。AI 稳稳接住你之后,你回应的每一次追问、纠正、选择,都是在告诉它,人类到底想要什么?

未来,我们和 AI 会互相引导着走向什么样的终局?

没人知道。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论