猎云网 04-17
中国首个音乐SOTA模型天工音乐大模型,今日公测!
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

4 月 17 日,在 " 天工 " 大模型一周年之际,昆仑万维宣布," 天工 3.0" 基座大模型与 " 天工 SkyMusic" 音乐大模型正式开启公测!

" 天工 3.0" 拥有 4000 亿参数,超越了 3140 亿参数的 Grok-1,是全球最大的开源 MoE 大模型。" 天工 3.0" 在语义理解、逻辑推理、通用性、泛化性、不确定性知识、学习能力等领域拥有突破性的性能提升,数学 / 推理 / 代码 / 文创能力提升超过 30%。

(天工 3.0 模型参数超越 Grok-1,成全球最大开源 MoE 专家混合大模型)

强大的模型技术实力赋予 " 天工 3.0" 超强的性能表现。在 MMBench 等多项权威多模态测评结果中," 天工 3.0" 超越 GPT-4V,全球领先。

(天工 3.0 多模态性能超越 GPT-4V,全球领先)

同时," 天工 3.0" 旗下的 " 天工 SkyMusic" 音乐大模型也在今日面向全社会开放公测。" 天工 SkyMusic" 是中国首个音乐 SOTA 模型,更是中国的自研大模型技术第一次在 AIGC 领域领跑全球。

(天工 SkyMusic 综合性能超越 Suno V3,取得音乐大模型 SOTA,领跑全球)

天工 SkyMusic:中国首个音乐 AIGC SOTA 模型

此前,大模型已经在文本、图像等多个技术领域取得突破,带来产业全面变革。然而,在 AI 音乐生成领域,全球迟迟等不到一款产品,开启 " 音乐 ChatGPT 时刻 "。

这是因为一直以来,AI 音乐行业大量研究都集中在符号音乐生成技术路线上,并且大多只能实现无人声背景音乐(Background Music,BGM)的生成,音乐的质量、效果、审美都远远达不到可用水平,产业迟迟未能爆发。

(" 天工 SkyMusic" 自研 AI 音乐大模型技术架构)

与行业主流路径不同," 天工 SkyMusic" 采用自研大模型音乐音频生成技术路线。这一路线直接通过大模型技术实现乐器、人声、旋律、音量、音符的一体化端到端音乐生成,技术难度极大,全球只有包括昆仑万维在内的极少数顶尖玩家参与。

在与海外顶尖的 AI 音乐大模型 Suno V3 的横向测评中," 天工 SkyMusic" 在人声 &BGM 音质、人声自然度、发音可懂度等领域显著领先对手,并以 6.65 分的综合得分超越 Suno V3,成为全球 AI 音乐 SOTA 模型。

此外," 天工 SkyMusic" 还拥有独创的参考音乐生成与方言歌曲生成能力。

参考音乐生成:用户可上传自有参考音乐,或选择 " 天工 SkyMusic" 资料库中现有的参考音乐,从而生成风格、唱腔类似的歌曲,进一步降低音乐大模型的使用门槛,让不熟悉乐理知识的用户也能轻松玩转。

方言歌曲生成:" 天工 SkyMusic" 生成的音乐不仅在人声自然度、发声可懂度等领域表现优秀,更能够支持粤语、成都话、北京话等众多方言,让用户能够更自由地实现音乐表达,传播方言文化。

" 天工 SkyMusic" 是中国首个公开可用的 AI 音乐生成模型,更是中国自研大模型技术第一次在 AIGC 领域领跑全球。

当前,在文本大模型领域,OpenAI 吸引了全球的注意力;但是在 AI 搜索、AI 音乐生成等细分领域,中国玩家们正在奋勇前行,不断通过自研技术取得细分领域顶尖的 SOTA 表现,共同建设中国大模型产业,打造自主可控的大模型产业生态。

天工 3.0:4000 亿参数,全球最大开源 MoE 大模型

在上一代 " 天工 2.0"MoE 大模型的领先基础上," 天工 3.0" 实现了全面的性能升级,采用了 4000 亿级参数 MoE 混合专家模型架构,是目前全球模型参数最大、性能最强的开源 MoE 模型。

" 天工 3.0" 的逻辑推理能力、语义理解能力、应对复杂需求能力、内容创作能力全面升级,并新增了多轮搜索与综合工具调用、图表绘制、研究模式、增强模式、改图扩图等多项 AI 能力,为用户带来全新 AI 体验。

多轮搜索与综合工具调用:" 天工 3.0" 针对模型独立规划、调用、组合外部工具及整合信息的能力进行了专项训练,使其能够独立生成并调用代码,完成包括产业研究、产品横评、信息分析、图片生成、图表绘制等多种复杂用户需求。

同时," 天工 3.0" 能够通过强大的语义理解能力将用户任务拆解成细分环节,实时判断是否需要联网或调用工具,进行单轮或多轮的联网搜索、工具调用,完成包括多轮搜索、热点信息分析、图片生成等复杂用户需求。

(Query:查询最新中国历史电影票房排行,图表展示)

图表绘制:" 天工 3.0" 全面提高了逻辑推理能力与用户自然语言 Query 的理解能力,使其能够更精准地判断用户需求,独立生成并调用代码,结合文本需求实时进行内容分析及图表构建,为用户带来更直观、高效的对比结果。

(Query:北京、上海、重庆哪个好玩?)

多轮搜索、综合工具调用、图表绘制等都是 " 天工 3.0" 所独有的大模型综合能力,其从底层打通了 " 天工 3.0" 的 AI 搜索、AI 对话、AI 代码生成、AI 图片识别、AI 图像生成等底层能力,通过语义识别能力直接触发,为用户带来更加便捷、高效的 AI 体验,成为真正的 AI 生产力工具。

此外," 天工 3.0" 中还增加了研究模式、增强模式、改图扩图等多项 AI 能力。

研究模式:在研究模式中," 天工 3.0" 能够围绕用户的某个简单指令进行相关问题的延伸,自动生成研究大纲、图谱、实践总结、思维导图,帮助用户快速清晰地把握核心内容,完成用户复杂的研究需求。

(Query:康乾盛世年代)

增强模式:在增强模式中," 天工 3.0" 能够针对用户的复杂 Query 进行拆解、细化、并进行追问、信息理解与补全,使其在自然语义理解方面性能更强,面对不确定性知识时表现更好,能够更精准、高效地满足用户需求。

(Query:2024 年春节档电影;" 天工 3.0" 理解并追问用户需求)

改图扩图:" 天工 3.0" 多模态性能取得全面突破,超越 GPT-4V,综合排名全球第一。在强大的技术底座支持下," 天工 3.0" 的 AI 绘图能力新增了图片尺寸扩展、图片定向调整、垫图生图、垫图进化、垫图扩图等全新功能。

(" 天工 3.0" 的 AI 改图、修图、扩图等功能)

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

智慧云

智慧云

ZAKER旗下新媒体协同创作平台

相关标签

ai 昆仑万维 音乐 开源 文创
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论