智东西 04-17
天工3.0正式开放!4000亿参数MoE开源,开启音乐生成ChatGPT时刻
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

作者 | 香草

编辑 | 漠影

智东西 4 月 17 日报道,昆仑万维今日重磅推出4000亿参数开源大模型天工3.0,其采用MoE(混合专家模型)架构,相比 2 个月前的天工 2.0,逻辑推理、语义理解、复杂需求应对、内容创作等 4 大核心能力大幅提升。

天工 3.0 新增了图表对比生成、研究模式、增强模式、扩图修图等功能,并针对性地训练了模型的 Agent 能力,使得模型能够 " 独立思考 ",规划、拆解用户需求,完成复杂任务。

同时,基于天工 3.0 打造的天工 SkyMusic 也是中国首个音乐AIGC SOTA(领域最佳水准),其采用音乐音频领域Sora模型架构,是国内唯一公开可用的音乐生成大模型

天工 SkyMusic 大幅降低了音乐创作门槛,虽然仍处于起步阶段,但其已经在音乐生成领域取得了不错的效果。4 月初开启邀测后,天工 SkyMusic 后台提交测试申请的人次超百万。

▲广场舞神曲版《再别康桥》(来源:智东西)

天工 3.0 大模型的发布,代表了昆仑万维 "All in AGI 与 AIGC" 战略路径上的又一里程碑时刻。功力大增的天工 3.0 大模型,到底有多好用?能在哪些方面显著提升生产力?智东西第一时间体验了天工 3.0。

一、全球最大开源MoE模型,4000亿参数、4大核心能力升级

天工 3.0 参数规模达到 4000 亿级,是全球最大规模的开源MoE大模型。相较于上一代,天工 3.0 的模型技术知识能力提升超过 20%,数学、推理、代码、文创能力提升超过 30%。

▲天工 3.0 成为全球最大开源 MoE 大模型

天工 3.0 基座大模型在逻辑推理能力、语义理解能力、应对复杂需求能力和内容创作能力4 个方面大幅提升。作为多模态大模型,天工 3.0 集成了 AI 搜索、AI 写作、AI 长文本阅读、AI 图片生成、AI 音乐生成等功能,在 MMBench 等多项权威多模态测评结果中超越GPT-4V

▲天工 3.0 多模态性能超越 GPT-4V

基于模型能力的提升,天工 3.0 还新增了多轮搜索及综合工具调用、AI 搜索研究模式、AI 搜索增强模式等功能,可以高效地完成产业分析、产品对比等各类复杂需求。

研究模式中,天工 3.0 能够围绕简单指令进行相关问题的延伸,自动生成研究大纲、图谱、实践总结、思维导图等。

例如,我让天工 3.0 研究 "OpenAI 发展历程 "。在全网搜索后,它能以分段提炼等形式呈现搜索结果,并自动总结大纲、绘制思维导图。

▲天工 3.0 总结 OpenAI 发展历程(图源:智东西)

增强模式中,天工 3.0 能够针对用户的复杂 Query 进行拆解、细化,通过追问、信息理解与补全,使其在自然语义理解方面性能更强,更好地面对不确定性知识。

比如我输入了提示词 "2024 年科技圈 ",这个需求的难度是比较大,会包含多种细分需求的提示词。天工 3.0 能立即意识到这个问题并进一步追问,它还贴心地提供了行业发展趋势、产品市场规模、投资环境等方向选择。在我选择 " 发展趋势 " 后,它基于联网获取的资料很快给出了包含 AI、AIoT、新能源等趋势信息的回答。

▲天工 3.0 增强模式(来源:智东西,视频有加速)

基于多轮搜索及综合工具调用功能,天工 3.0 可以将用户任务拆解成细分环节,实时判断是否需要联网或调用工具,进行单轮或多轮的联网搜索、工具调用。

联网当然要考察最新的时事热点,我决定问问天工 3.0" 成都迪士尼 " 最近为什么这么火,天工 3.0 随即准确地解释了这个梗的来源及事件经过。然后我跳转话题,问 " 迪士尼游玩攻略 ",天工 3.0 联系上下文,给出了成都的出行攻略。改成问上海迪士尼的天气也完全没问题,通过调用天气组件工具,天工 3.0 能够直接给出近几日上海的天气预报。

▲天工 3.0 多轮搜索及综合工具调用功能(图源:智东西)

在图像生成方面,天工 3.0 的改图扩图能力取得突破,可以让它绘制一张风景图,并逐步在图中增加新的物品或元素:

▲天工 3.0 图像绘制(图源:智东西)

对于用户而言,天工 3.0 不仅适用于产业分析、市场研究、产品对比、知识管理等工作场景,也适用于内容创作、教育培训、智能搜索、语音合成、图像和音乐生成等娱乐场景。

学生党、打工人可以利用天工 3.0 的研究模式和增强模式,通过简单的查询获得全面而精炼的资料,文献搜集、资料汇总等所需的时间大幅缩短,提升工作学习效率。

内容创作者可以利用天工 3.0 的 AI 音乐生成、AI 语音、AI 图像生成等功能,提高创作效率和质量,同时创作门槛降低,人人都可以成为 " 作曲家 "、" 插画师 "。

此外,在 ToB 领域,企业用户也可以利用天工大模型构建专属 Agent,实现专属知识库,实现自动调用制定工具、完成复杂指令遵循 Agent 构建等,提升工作效率、优化决策过程、增强产品和服务的竞争力。

二、国内首个音乐AIGC SOTA,秒级生成80秒歌曲、人声"以假乱真"

近期,海外的音乐生成产品 Suno、Udio 爆火,AI 音乐生成领域受到了前所未有的关注。但这些产品面向海外市场设计,对于国内用户而言有一定的使用门槛。

基于天工 3.0 打造的天工 SkyMusic,不仅是目前国内唯一公开可用的AI音乐生成大模型,而且在人声 &BGM 音质、人声自然度、发音可懂度等性能方面,以 6.65 分的综合得分超越 Suno V3,成为全球AI音乐SOTA模型

▲天工 SkyMusic 综合性能超越 Suno V3

天工 SkyMusic 可以生成 80 秒 44100Hz 采样率双声道立体声歌曲,支持生成说唱、民谣、放克、古风、电子等多种音乐风格,还能学习颤音、歌剧、吟唱、男女对唱、自动和声等歌唱技巧。

此外,天工 SkyMusic 还拥有独创的参考音乐生成方言歌曲生成能力。用户可上传或选取现有的参考音乐,生成与之风格、唱腔类似的歌曲,进一步降低了使用门槛;也可以生成粤语、成都话、北京话等方言,传播地域文化。

其使用方法也非常简便,用户只需下载天工 APP,填写歌词或使用 AI 生成歌词,再选择或上传一首参考歌曲,点击 " 生成 " 即可在不到半分钟的时间内生成音乐,并且每首歌都提供三个版本可供选择。

基于天工 SkyMusic 的 SOTA 能力和情感表达优势,你可以为自己喜欢的古诗词配上旋律:

▲抒情版《长恨歌》(来源:智东西)

这首《长恨歌》是我用徐佳莹的歌曲《身骑白马》作为参考生成的,天工 SkyMusic 生成的音乐在伴奏上层层递进,在旋律上也体现出了主歌和副歌的段落差异。

也可以将网络热梗改编成说唱版:

▲说唱版网络热梗(来源:智东西)

这段话是近期网络上比较火的 " 加密文学 ",参考音乐是天工官方提供的一则说唱指南。作为 " 音乐小白 ",我对说唱歌曲中的 Verse、Flow 等专业术语了解并不多,但能听出来这个 AI 嘴皮子确实挺快(Doge)。

如果不想选择现有的歌词,可以通过 AI 生成歌词功能,让 AI 为你续写。以下是我用 AI 生成的关于 " 不想上班 " 的文案,基于 " 土味神曲 "《5:20AM》生成一首新歌:

▲ AI 创作土摇版歌曲(来源:智东西)

方言歌曲生成能力方面,智东西选取了陈奕迅经典粤语歌《富士山下》的歌词,以周杰伦的《青花瓷》作为参考曲目输入,生成了这首具有国风特色的青花瓷版《富士山下》:

▲青花瓷版富士山下(来源:智东西)

如此逼真的人声 " 以假乱真 " 能力,以及高度还原音乐风格等各种环节的可控性,天工 SkyMusic 是如何做到的?

据了解,现有 AI 音乐大模型企业普遍没有公开自己的技术路径,因此没有可借鉴和参考的开源音乐大模型。昆仑万维在技术路径探索上做了非常多的尝试,花费了大量研发资源,最终摸索出下图这条路:

▲天工 SkyMusic 技术原理图(图源:昆仑万维)

在 AI 音乐生成领域,有两大技术路径,符号派与大模型派。天工 SkyMusic 选择了难度更大、效果更好的大模型音乐音频生成路线

在音频生成路径上,又有三个细分领域:Song、BGM、Speech。过去很多 AI 音乐研究都集中在无人声的 BGM 领域,有人声的 Song 赛道几乎没有好的解决方案。而天工 SkyMusic,就是在Song领域取得了极大突破,大幅提高了 AI 音乐生成技术在 Song 领域的模型表现,开创了音频生成大模型的成功案例。

具体来说,天工 SkyMusic 采用与 Sora 类似的模型架构,包含三大核心模块——EncoderDiT(Diffusion Transformer)和Decoder。其中,Large-scale Transformer 负责谱曲,学习 Music Patches 的上下文依赖关系,同时完成音乐可控性;DiT 负责演唱,通过 LDM(Latent Diffusion Model)让 Music Patches 被还原成高质量音频。

从上述案例及跟 Suno V3 的横评中可以看出,相比海外其他 AI 音乐大模型,天工 SkyMusic 在 AI 人声合成的细腻度、可识别度上表现优秀,咬字发音,并且支持粤语、成都话等方言语种。

虽然尚处于起步阶段,但天工 SkyMusic 已经让很多用户感受到了音乐创作的乐趣。同时,昆仑万维选择将宝贵的技术架构公开,也体现了其对开源社区生态、产业共同发展的重视。

三、构建六大AI业务矩阵,国内首推AI搜索、AI音乐产品

大模型狂飙 500 天,如何将其能力落地到应用产品仍是困扰众多 AI 厂商的难题。大模型杀手级应用何时出现?

昆仑万维董事长兼 CEO 方汉告诉智东西,C 端 + 免费可能成为大模型落地的主要路径。在互联网时代,美国的谷歌、微软,国内的百度、阿里等都是靠这个逻辑成为互联网巨头,同样的道理也将延伸到大模型时代。

一方面,C 端用户上限高达 80 亿;另一方面,订阅模式门槛高,用户接受程度相对较低。而要做到免费,AI UGC(用户生产内容)平台是一个好的商业模式。

根据风投机构 a16z 上月发布的生成式 AI 产品 Top 100 报告,ChatGPT、Gemini 等通用内容生产应用仍占据消费级 AI 应用大头。与 6 个月前的排名相比,有两个新类别首次进入排行:音乐生产力

Suno 是唯一进入排行的音乐生成产品,这表明音乐生产工具逐渐闯入消费者视野,成为下一个有潜力的 C 端应用落地路径。而生产力类别上榜 7 款产品,包括写作、视频摘要、搜索引擎、文章总结等领域。

这与昆仑万维的产品布局路径不谋而合。

2023 年 4 月,昆仑万维提出 "All in AGI 和 AIGC" 战略,不局限于单一的产品或技术,而是构建一个完整的 AI 生态系统,逐步了形成AI大模型、AI搜索、AI音乐、AI社交、AI游戏、AI视频六大业务矩阵。

其中,AI 大模型和 AI 搜索作为底座,是所有 AIGC 能力的基础,音乐、视频、社交、游戏等方向则是昆仑万维在 AGI 道路上的探索,体现了其 AI UGC 平台商业模式。

2023 年 8 月,昆仑万维推出国内第一款AI搜索产品—— " 天工 AI 搜索 ",深度融合 AI 大模型能力,通过人性化、智能化的方式,为用户提供快速、可靠的交互式搜索服务,助推传统搜索跨越式迈入 AI 时代。

本月初,昆仑万维推出国内第一款AI音乐生成产品—— " 天工 SkyMusic",采用音乐音频领域类 Sora 模型架构,支持生成 80 秒 44100Hz 采样率双声道立体声歌曲,降低了音乐创作门槛,人人都可以用音乐来表达情感。

昆仑万维为何能够在国内市场两次首发国内第一款 AI 细分应用创意新品?

这离不开其前瞻性的战略布局、深厚的技术积累、强大的研发实力以及对市场需求的敏锐洞察。

昆仑万维从 2020 年开始布局 AIGC 和大模型领域,至今已积累近四年的相关工程研发经验,且研发投入巨大。据其 2023 年第三季度报告,公司前三季度研发费用达到6.2亿元,同比增长28.18%。同时,公司十分重视开源生态,天工大模型在开发过程中也得到了开源社区上百位 AI 科学家的助力。

此外,昆仑万维对市场需求有着敏锐的洞察力,看到了 AI 技术在搜索引擎、音乐创作等场景的巨大潜力。自 2023 年 4 月发布天工大模型之后,团队就开始了大模型与搜索引擎的融合尝试,并于同年 8 月推出中国首款 AI 搜索产品——天工 AI 搜索。天工 SkyMusic 则体现了昆仑天工探索研究的一个重要方向——情感 AGI。

结语:All in AGIAIGC,昆仑万维交出最新答卷

随着天工 3.0 大模型的开源公测,我们见证了昆仑万维 AI 技术的又一里程碑。

天工 3.0 以其 4000 亿参数的 MoE 架构,不仅在逻辑推理、语义理解等核心能力上实现了飞跃,更在多模态领域展现了其强大的应用潜力。天工 SkyMusic 的成功推出,更是将音乐创作的门槛降至新的低点,让每个人都能轻松玩音乐。

昆仑万维 "All in AGI 与 AIGC" 的战略布局,在展现了对未来技术趋势前瞻性的同时,彰显了其在 AI 领域的雄心壮志。我们期待看到更多优秀的国产大模型及 AIGC 产品,通过在迈向 AGI 的道路上各种创新探索,为更多行业及人们日常生活带来改变。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

智慧云

智慧云

ZAKER旗下新媒体协同创作平台

相关标签

音乐 开源 ai 昆仑万维
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论