文章开始之前,给大家听一下我们用 AI 做的一首《雷科技之歌》。
初代《中国最强音》总冠军曾一鸣在用真人演唱迎战 AI 作品《泪海》后,曾公开给出一个判断:
" 再过一段日子,各大平台的排行榜,都会被 AI 音乐屠榜。"
这个判断,比想象中来得更早。最近在网上冲浪时,相信不少人都刷过这样的内容:大量 "AI 周杰伦 "、"AI 孙燕姿 " 等,翻唱着歌手本人从未演绎过的曲目,粉丝们无不惊呼。
说到 AI 歌曲,就不得不由酷狗阿波罗声音实验室独立研发的 AI 虚拟歌手 " 大头针 ",目前已累计上线近 2000 首翻唱作品,单月最高听众达 2517 万。在流媒体的数据对标上,这一量级已经逼近了周杰伦同期的月听众规模。
图源:QQ 音乐
与此同时,AI 虚拟歌手正在从 " 纯音频 Token" 向着具备完整人格特质的 " 虚拟偶像 " 演进。今年 1 月,在北京亦庄拿到全国首个虚拟偶像身份证的 "Yuri",不仅在歌曲平台上持续输出,更深度渗透进公共文化活动中。在出道曲《Surreal》发布后,鸣潮、岚图汽车等品牌方的商业合作接踵而至,虚拟声线商业变现上确实有可行性。
图源:岚图汽车
这种现象正在全球蔓延。6 月 6 日,特朗普发布 AI 单曲《人人都爱特朗普》,歌词写道:" 不管我走到哪儿 人人都爱特朗普,来到墨西哥,他们喜欢特朗普;去到意大利,他们喜欢特朗普…… "。
秉持 " 绝知此事要躬行 " 的精神,雷科技(ID:leitech)决定独自下场实测,尝试制作一首《雷科技之歌》,然而,在经历了长达数小时的重度死磕后,我们发现了 AI 音乐在底层机制上的硬伤。
作为当前的 AI 音乐顶流,Suno 和 Udio 基本撑起了行业的半壁江山。在实测开始前,我推测 AI 写歌的逻辑与人类相似,是基于旋律和节奏的实时反馈进行增量修改。但当我真正尝试生成《雷科技之歌》时,首轮测试就遭遇了跨模态对齐的逻辑翻车。
图源:Suno.cn
问题出在歌词的解读上,为了全面测试 AI 对垂直专有名词和中文多字句的驾驭能力,我通过 GPT 生成了一版歌词,这个歌词里面包含了大量的多字排比句,以及雷科技旗下的垂直 IP 矩阵,比如 " 微信、抖音、B 站 / 看小雷聊数码把硬件都拆穿 / 看软硬结合的 AI 怎么把体验填满 " 等等。
然而,算法吐出来的成品完全暴露了它对垂直名词的理解缺失。AI 将 " 小雷聊数码 " 进行了生硬的截断,在 " 小雷 " 后面出现了无意义的断气,随即将 " 聊数码把硬件 " 连在一起黏糊糊地唱了出来。这种不符合基本乐理和发音常识的低级错位,在随后的数十次抽卡中高频出现。
可见,AI 音乐并没有听觉,它本质上是在用视觉大模型的逻辑去画一张频谱图。
从底层架构来看,Suno 或 Udio 的第一步是利用声学编解码器(Neural Audio Codecs),将连续的音频信号切碎成每秒数百个微小的音频切片,并将其转化为离散的代码,也就是音频 Token。
在模型内部,副歌的情绪和独白的平铺没有高低之分,它们只是两串不同概率分布的矩阵数据。
这依然是 Transformer 架构最擅长的概率预测游戏。大模型计算的是在当前的上下文环境下,前一秒的数字编码后面接哪一个音频 Token 的概率最高。当它通过自回归模型算出一串数字序列后,再利用扩散模型进行去噪拟真,最终输出音轨。
这种依赖统计学概率的拼图逻辑,导致它建立的只是 " 字 " 与 " 发音编码 " 的强绑定。它不具备真正的旋律逻辑,更不懂得中文词组的语境语义,因此在处理稍微复杂的垂直词组时,极易出现错位断句和转音崩塌。
在摸清了音频 Token 化的底层机制后,我开始了第二轮测试。在歌词的第三段,时间指针被拉到了 2026 年,里面的细节更加具象且充满现场感:" 飞过太平洋,奔赴不眠的内华达 / CES 的展会现场,没有大雪、只有风沙 "。
为了衬托这种 " 创始人带队奔赴前线 " 的极客感,我试图让 AI 呈现出一种带有前沿探索感、冷峻且宏大的科技电子流行风。但算法很快展现出了大数据二道贩子的局限。
三十秒后,软件吐出来的音频具有极强的夜店土嗨感。大模型用一种缺乏情感起伏的 DJ 腔,机械地高喊着 " 没有大雪、只有风沙 ",配上劣质的重低音,活生生把一个科技报道团奔赴内华达沙漠的壮丽现场,唱成了土味夜店的喊麦神曲。
这暴露了 AI 写歌的另一个技术瓶颈:它不具备审美和风格的创新能力,它只有对大数据的刻板印象。
人类的风格创新往往来自于对既有规则的打破,而 AI 的算法逻辑恰恰相反,它永远倾向于选择全互联网大数据统计下来概率最高、最稳妥的陈词滥调。AI 在抓取了全网被标记为 " 科技 " 的音乐样本后,发现其中高频出现的是廉价的电子合成器和重低音,于是它便将这些大数据的平均值进行打包和放大。
当遇到 " 内华达、CES、风沙 " 这种在传统音乐库里几乎找不到对应模版的词汇时,它的算法机制就会自动向下兼容,向着最平庸、最安全的 " 夜店风 " 坠落。
由于它是不可控的黑盒逻辑,在这个由概率支配的系统里,你只要微调一处提示词,就会彻底塌陷并重新洗牌。
为了强行纠正它,我只能放弃人类语言的宏观描述,改用纯粹的结构化思维进行对赌:将歌词手动切碎,使用方括号标记极其严格的结构标签,在 " 内华达 " 和 "CES" 之间手动加入标点符号强行纠正断句,并利用 " 垫音(Extend)" 功能,截取听起来勉强及格的前 30 秒,再进行局部的增量续写。
在消耗了上百个平台积分、在海量无效音频中进行人工筛选后,这首《雷科技之歌》终于被拼凑了出来。
坦白讲,扩散模型赋予了最终成品极高的技术完成度,无论是高逼真的泛音还是均衡的混响,都具备了工业级的外壳。但这并非技术理解了音乐,而是高效率重组流水线的结果。
AI 并没有消灭音乐的艺术,它只是重构了音乐的工业基础。
它能快速清洗掉低端市场的重复制作者,但由于受限于统计学平均值的底层逻辑,它很难越过概率去爆发属于人类创作者的神来之笔。
坦白来说,以上对于 AI 写歌的吐槽有点吹毛求疵,当我们把目光从狭隘的艺术层面移开,站在行业和品牌营销的角度来看,AI 音乐在微观细节上的这些硬伤,在商业效率面前其实并不重要。
《雷科技之歌》包括歌曲制作 +MV 生成,大概花了我 56 块会员费(额度还没用完),这点钱在营销层面,几乎可以忽略不计。
如果没有 AI,传统的品牌营销曲是一件高边际成本的消费品。从邀请词曲创作者、寻找歌手、再到进棚录音及后期混音,一首合格的品牌主题曲往往需要数十万的预算以及数月的制作周期。而 AI 音乐的出现,直接将生产成本与时间周期砸到了传统行业的视线死死角之外。
这种几乎为零的试错成本,让 " 即时内容营销 " 真正具备了实操性。
例如特朗普的 AI 单曲,很恶搞,但从商业逻辑来看,它是一次极度精准的政治与情绪营销。通过 AI 工具在几分钟内就能将政治口号、时事热梗,以极低的成本将严肃议题转化为流行符号。
图源:X
这种玩法同样可以复制到商业品牌上,比如,中午互联网刚爆出一个热梗,运营下午就能利用 AI 做出一首魔性洗脑的歌曲配合分发,这种快速响应的能力直接拉高了内容产出的效率。
还有一种对用户的精细化运营。比如,新能源汽车在车主提车时,系统可以提取用户的兴趣标签,现场在数秒内自动定制一首包含车主名字的专属提车曲,直接推送到车机上。
一些平台在进行年终盘点时,也能为海量用户每个人生成一首专属的生活足迹单曲。这种玩法在传统音乐工业时代是无法计算投入产出比的,而现在它变成了极低成本的情绪价值。
在《雷科技之歌》最终拼凑完成时,我有种 " 总算凑出来了 " 的感觉,但这种如释重负,本身就说明问题,AI 能帮你交差,但交不出惊喜。它擅长把大数据的平均值打包成安全牌,却写不出深夜灵感迸发时那句让人起鸡皮疙瘩的歌词。
未来的音乐创作,大概率会走向分层:神来之笔依然属于人类,而标准化、即时响应的内容生产,交给算法就好。音乐不会死,只是创作的门槛和权力分配,正在被重新洗牌。


登录后才可以发布评论哦
打开小程序可以发布评论哦