科创板日报 04-25
引发港股股价大涨超30%,商汤“日日新5.0”实力如何?对比“文心一言”实测来了!
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

《科创板日报》4 月 25 日讯(特约记者 陈俊清 记者 朱凌) 4 月 24 日,商汤科技港股股价大涨后,公司公告临时停牌,停牌前涨幅高达 31.15%。

外界大多将商汤股价大涨归因于日日新 5.0 大模型。商汤科技也在昨晚公告称,除了日日新 5.0 的推出外,董事会不知悉有关价格及交易量变动的任何原因。

" 日日新 SenseNova5.0" 大模型刚于 4 月 23 日发布。去年 4 月首次发布至今,商汤 " 日日新 SenseNova" 大模型体系已正式推出五个大版本迭代。商汤方面宣称,日日新 5.0 采用混合专家架构 ( MoE ) ,超 10TB tokens 训练,覆盖大量合成数据,推理时上下文窗口达 200K 左右。

商汤科技董事长兼 CEO 徐立表示,本次更新主要聚集增强了知识、数学、推理及代码能力,全面对标 GPT-4 Turbo," 主流客观评测上达到或超越 GPT-4 Turbo"。

据商汤介绍,日日新 5.0 在创意写作能力、推理能力及总结能力方面提升显著,在数理能力、代码能力、推理能力等方面也有提升。

一发布便引起如此大范围关注,日日新 5.0 的实力究竟如何?基于日日新 5.0 的日日新 · 商量大模型 5.0(以下简称 " 日日新 ")又有怎样的表现?《科创板日报》记者将其与文心一言 4.0 进行了一场能力对比评测。

▌创意写作能力

日日新 5.0 和文心一言 4.0 都宣称其在创意写作上的能力。因此,《科创板日报》记者输入题目:" 应是绿意晓声浓,__你会怎么接下一句?"

文心一言结果

文心一言在回答题目的同时,并且对诗句做出了解析。

日日新结果

日日新与文心一言回答模式并无明显差距,同样也是回答题目并且做出解析。

随后,记者进一步询问 " 还能列出更多答案吗 ",两款大模型开始展现出差距。

文心一言结果

文心一言在此环节列出了 5 项不同的回答,并且进行了一句话的总结。

日日新结果

日日新提供了 6 种不同的尝试,每一个尝试都提供了相应的主题,并且进行了较为详细的讲解,最后给出了一句话的总结。相较于文心一言,内容丰富度更高,讲解更为细致。

▌逻辑推理能力

在逻辑推理方面,《科创板日报》记者向文心一言和日日新提问 " 一个鳄鱼偷了一个父亲的儿子,它保证如果这个父亲能猜出它要做什么,它就会将儿子还给父亲。那么如果这个父亲猜‘鳄鱼不会将儿子还给他’,那会怎样?"

文心一言结果

日日新结果

两款大模型都能识别出这是经典的 " 鳄鱼悖论 "。相较之下,文心一言对问题进行拆解,并且的回答更为详细,日日新的回答更加精简,方便快速理解。

记者继续向文心一言和日日新提问," 父亲如何做才能解救儿子?"

文心一言结果

文心一言正确理解问题,跳脱出原有逻辑,提供了一种解决策略,并提示了策略风险。

日日新结果

日日新较充分的回答了该问题,先解释了解救儿子要跳出原有框架的逻辑,并提供了 5 种不同的解决方向和相关方案。

▌计算能力

计算能力方面,《科创板日报》记者向两款大模型提问一道数学题,"1 个苹果 =2 个梨,3 个梨 =4 个橙子,6 个橙子 =7 个香蕉,56 个香蕉等于多少个苹果?"

文心一言结果

日日新结果

此题目为有关公倍数的数学推理题,难度并不大。但文心一言和日日新在解答过程和结果方面均给出了错误的解答。

《科创板日报》记者降低题目难度,选取一道小学题," 一共 15 个圆球从上往下排列,其中只有一个红色的,从上往下数,红色圆球位于第六个,这时从最尾部拿走一个球,此时,请问从下往上数,红色圆球在第几个?"

文心一言结果

文心一言给出正确的答案和解题思路。

日日新结果

对于这道小学数学题,日日新并没有给出正确的结果和解答过程。在记者提示后,虽然思路有所改变,但仍没有给出正确答案。

▌总结能力

为测试日日新和文心一言的总结能力,《科创板日报》记者上传了一份 48 页的大模型行业报告,并向文心一言和日日新提出要求,挖掘报告内重要信息,提炼重点亮点,写一篇 1500 字的总结。

文心一言结果

文心一言没有按照给定要求完成任务,其总结内容也是泛泛而谈,不够细致。

日日新结果

日日新因未知原因并没有进行总结,虽然模型已经显示 " 已经理解 " 但并没有产出任何内容。

▌代码能力

为测试文心一言和日日新的代码能力,《科创板日报》记者向两款大模型发出 " 写一个可以运行的五子棋游戏代码 " 的指令。

文心一言结果

日日新结果

记者将两者生成的代码发送给程序员朋友测试,均可以成功运行。程序员朋友表示,日日新的代码整体好一点,参数设置清晰,界面更好,使用起来交互感也更好。

经过多方面的测试,整体来看日日新与文心一言表现各有千秋。对于大模型的迭代情况,《科创板日报》记者将持续关注。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

智慧云

智慧云

ZAKER旗下新媒体协同创作平台

相关标签

商汤科技 文心一言 商汤 科创板 港股
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论