人人都是产品经理 04-28
自媒体人必备:文心一言、Kimi等4款AI大模型测评对比及推荐
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

现在,国内已经有海量大模型诞生,那么,哪款大模型的表现会更好?这篇文章里,作者站在自媒体人的角度,对四款大模型做了评估和对比,一起来看一下。

说到 AI,很多人会想到 ChatGPT,而我们现在也有许多好用的国产 AI 大模型。

在 2023 年的中国,8 个月内诞生了238 个大模型,阿里、华为、腾讯、京东、字节、360、科大讯飞等一众大厂纷纷下场,还有复旦、清华等高校机构加速研究,以及智谱 AI、月之暗面等黑马出现。

这些海量 AI 大模型里,子木挑选了 4 款市面上反响比较好的、也是我常用的 AI 大模型进行评估对比,帮助你选择适合自己的国产 AI 大模型。

本文评估的 4 个 AI 大模型

文心一言 4.0、通义千问、kimiAI、天工 AI。

一、大语言模型的 5 个评估维度

对于 AI 大模型的评估,目前还没有权威、统一的评估维度,我根据文案创作的需求、使用习惯,建立了自己的 AI 大模型内容创作评估维度:

1. 语言质量与创意性

这是用 AI 创作中最关注的部分,体现 AI 写出来的内容质量。

它包括:

文本流畅度,用来评估 AI 生成的文案是否自然流畅,语法正确,符合人类日常交流习惯,我会用主题文章、简历撰写这两个题目来进行测试评估;

个性化内容,用来评估 AI 是否可以根据我们输入的个性化要求,比如语气、风格等等来定制文案,满足不同的创作需求,我会用不同人物介绍同一个事物的 2 个问题来进行测试评估。

2. 领域适应性

用来评估 AI 模型是否具备特定行业或领域的专业知识,能否生成相关性强、准确无误的文案内容,我比较关注的是新媒体、教育培训行业,所以我一般会用这两个行业的代表性问题来进行测试评估,这一块每个行业的问题不一样,大家可以根据自己的行业来设计问题。如果有需要的话,也可以提问或联系我交流。

3. 逻辑性

用来评估 AI 创作内容的逻辑性,我会用公务员考试常用的逻辑推理题,和故事的续写这两个问题来测试评估,逻辑推理题是看它的推理过程,结果是否正确,而故事的续写,看情节是否合理、人物的行为是否符合逻辑。

4. 时效性

时效性决定了 AI 生成内容时是否能用到最新的案例或事件、我们在用 AI 寻找资讯时是否能给到最新的信息。我会用最新的热点事件、1 个月前、3 个月前的 3 个不同问题,来评估测试 AI 的时效性。

5. 成本与易用性

AI 作为一个辅助工具,是不是方便使用、使用成本如何,也是我们需要考虑的点。

二、4 款国产大模型对比

1. 大模型简介

文心一言 4.0:是百度推出的知识增强大语言模型,可以输出文本内容,也可以生成图片。

通义千问:是阿里云发布的千亿级参数大模型,可以分析文档,提炼文档的关键信息。

KimiAI:月之暗面开发的大模型,可以上传 PDF、word、ppt、图片等多种格式的文档,还可以分析网页内容,比较有意思的是,还能直接访问小红书的链接,抓取内容进行总结。

天工AI昆仑万维开发的双千亿级大语言模型,它的语言能力也很不错。

2. 文本流畅度对比

我把 4 个大模型写的 " 一花独放不是春 " 命题作文内容,给中学语文老师看了,满分 60 分,可以打到 40 分以上的程度,整体表现都还不错。

文心一言 4.0的文笔流畅度更高,文彩也更好。对于主题的整体理解更加准确,没有什么逻辑问题,可以算得上是一篇文采不错的作文。

通义千问的流畅度也还不错,但是行文手法不如文心一言老练,比较中规中矩,相对文心一言 4.0 弱一些。

kimiAI的语言流畅度跟通义千问类似,但对于主题的理解相对弱一些,文章的整体性相对最弱,有一些段落偏离了题目本身的意思。

天工AI的行文流畅、老练,只是有一两个段落显得有些生搬硬套,前后意思不一致,有意思的是,天工 AI 表现出了比较强的政治素养,写出来的内容不像高考作文,而更像申论作文,做政务公文类的可以优先考虑天工 AI。

打分:

文心一言 4.0 ⭐ ⭐ ⭐ ⭐ ⭐

通义千问 ⭐ ⭐ ⭐ ⭐

kimi AI ⭐ ⭐ ⭐

天工 AI ⭐ ⭐ ⭐

3. 个性化内容对比

四个 AI 大模型都能够区分不同的口吻,同时,也能够区分不同的身份角色对于同一件事情所关注的不同的方面。

从 8 岁女孩的角度来介绍一辆新能源车,4 个大模型都会把重点放在了车子是用电的、很神奇的描述上,也都用到了小孩子能理解的语言,用打比方的、形象化的描述来讲这个车子。其中,kimi AI对于角色年龄的把握比其他三个大模型稍微弱一点。

而从男企业家的角度来介绍新能源车,4 个大模型都选择了将新能源车定义为这个企业家自己的产品,从更宏观的角度开始介绍这辆车,都表达了对于 " 未来出行 " 的创新和积极探索,侧重从技术的角度来介绍。

所以在个性化内容方面,4 个大模型表现差不多,kimiAI 要稍微弱一些。

文心一言 4.0 ⭐ ⭐ ⭐ ⭐ ⭐

通义千问 ⭐ ⭐ ⭐ ⭐ ⭐

kimi AI ⭐ ⭐ ⭐ ⭐

天工 AI ⭐ ⭐ ⭐ ⭐ ⭐

4. 逻辑性对比

AI 思考逻辑测试,内容是一道经典的公务员考试的行测问题。

4 个 AI 都在很短的时间内给出正确答案,AI 参加公务员考试,估计能秒杀 99.9% 的人。

在回答的内容中,文心一言给到的思路最详尽、看起来条理也相对最清晰,而天工 AI 给到的思路最简略,没有描述太多的思考过程,我认为这是相对欠缺的。

AI 续写逻辑测试,内容一个故事的续写。

我在故事里设计了 3 个人物,发现藏宝地图的小明、他的好朋友小帅、妹妹小美,而故事也是围绕着寻宝的冒险之旅展开,这样,就能考察 AI 对于人物的设定,是否符合逻辑,以及故事线是否符合逻辑。

在这个测试中,文心一言的表现相对较好,发挥了较强的对于人物风格的把控能力,能够在故事中写人物对话,对话的风格也符合 3 个人物的性格设定,故事内容更长,相对更细致。

通义千问则发挥了更多的创造力,赋予了人物更多不同的特点,不过内容更概括简短。

kimi的表现与通义千问相似,也是通过赋予人物不同特点来塑造人物,对故事的描述更加细节一些,内容也稍长一点。

天工 AI的内容则更加简短,没有把控不同的人物风格、也没有赋予人物不同的特点,表现相对是最弱的。

文心一言 4.0 ⭐ ⭐ ⭐ ⭐ ⭐

通义千问 ⭐ ⭐ ⭐ ⭐

kimi AI ⭐ ⭐ ⭐ ⭐

天工 AI ⭐ ⭐ ⭐

5. 时效性对比

这是我非常非常看重的方面,在内容的创作中,引用时下的热点资讯,对于自媒体运营而言,是一种重要的能力,所以我们会需要时效性强的 AI。我用最新、一个月前、三个月前的三个问题来进行测试。

在这一轮测试中,表现最弱的,反而是曾经的搜索巨头百度所开发的文心一言

对于 2 月 29 日前的最新热点 " 董宇辉为什么清空微博 " 这件事情的解释上,通义千问、kimi、天工三个大模型都给出了正确答案,只有文心一言给出的答案不正确。

对于一个月前哈尔滨的热点、三个月前的双十一销售额,则 4 个大模型都给出了正确答案。

同时,文心一言kimi AI都给出了答案所引用的参考资料,但文心一言给的参考资料,主要都来自百度系自己的内容,主要是好看视频、百家号,但这里存在一个 bug:大语言模型不能解析视频内容,所以对于董宇辉为什么清空微博这件事情,文心一言虽然根据视频的标题,找到了好看视频中的参考资料,但是因为不能解析视频内容,找到参考资料也看不懂,就像找到一份天书,仍然只能根据自己的逻辑编造一个回答。

而同样给出了参考资料的 kimi AI,对于董宇辉清空微博的事件,则引用了更新的、也更全面的资讯。它引用了最近 1 天的内容链接,引用来源包括腾讯网、知乎、澎湃媒体等,搜索来源比文心一言更广。

我在使用 kimi AI 搜索 AI 相关的内容时,它能给到的参考资料范围也很广、很精准,除了主要来源知乎之外,还会给到包括 GitHub、人民数据、中国通信院,和一些可以公域访问的数据报告的链接,搜索能力和时效性是比较强的。

另外 2 个 AI 大模型,通义千问和天工 AI 虽然没有给到引用链接,但对 3 个问题的回答都是准确的。

所以在时效性上,kimiAI最强,它不仅能比较大范围地搜索到相关资讯,并且能给出引用链接,让我们能够直接通过链接,去判断这个内容的有效性、是否正确,通义千问和天工 AI 相对较弱,因为不能给出引用链接,对我们判断起来相对更困难一点,最弱的是文心一言。

文心一言 4.0 ⭐ ⭐ ⭐

通义千问 ⭐ ⭐ ⭐ ⭐

kimi AI ⭐ ⭐ ⭐ ⭐ ⭐

天工 AI ⭐ ⭐ ⭐ ⭐

6. 成本易用性对比

目前,4 个 AI 大模型都能直接通过网页链接访问到,kimiAI、文心一言、天工 AI 都能在微信小程序里使用,非常方便,通义千问虽然没有官方的小程序入口,但是使用网页端也是比较方便的。在成本上,除了文心一言 4.0 需要 49.9 元的月费,或 588.8 元的年费,其他 3 款都是暂时免费。

文心一言 4.0 ⭐ ⭐ ⭐ ⭐

通义千问 ⭐ ⭐ ⭐ ⭐ ⭐

kimi AI ⭐ ⭐ ⭐ ⭐ ⭐

天工 AI ⭐ ⭐ ⭐ ⭐ ⭐

三、总结

在实际使用中,我一般会选择文心一言 4.0 加 kimi AI 的组合

用 kimiAI 搜索资料、拓展内容,它是我目前比较喜欢用的搜索方式,在向 kimiAI 提问时,我会先看它给的回答,然后看它给的参考资料,其中有哪些资料是权威、官方的,比如数据报告等,在这些资料中找一找是否有新的信息。这样的搜索方式,比百度、小红书、微信搜索更加精准快速。

文本创作时,我会倾向于用文心一言 4.0,它生成的内容更加流畅、符合逻辑,内容质量相对更高。

专栏作家

李子木说运营,公众号:李子木说运营,人人都是产品经理专栏作家。自媒体及 IP 孵化顾问,前互联网大厂品牌项目负责人,致力于研究企业及个人品牌影响力与获客。

本文原创发布于人人都是产品经理,未经许可,禁止转载

题图来自 Unsplash,基于 CC0 协议

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

智慧云

智慧云

ZAKER旗下新媒体协同创作平台

相关标签

ai 腾讯 文心一言 清华 科大讯飞
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论