钛媒体 04-17
AI原生时代,应用创新蓄势待发
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

本文摘自《云栖战略参考》,这本刊物由阿里云与钛媒体联合策划。目的是为了把各个行业先行者的技术探索、业务实践呈现出来,与思考同样问题的 " 数字先行者 " 共同探讨、碰撞,希望这些内容能让你有所启发。

迈入 AI 大模型和生成式技术飞跃发展的时代,基于 AI 的应用创新正在成为新的主题。

2023 年,从通用大模型喧嚣到行业大模型集中落地,AI 应用创新也在下半年呈爆发式涌现;2024 年,AI 应用的颗粒度正在进一步细化,关注点和效用也更实际,也正进一步走近垂直细分领域的价值实现。

对于大多数产业以及其中的企业来说,转变技术范式、突破传统模式发展是更现实的挑战,以 AI 赋能现有的技术、业务,是最现实的命题,也是最具效率、落地速度最快的路径。

但不同于从传统产业中诞生的创新,AI 时代的新创业者天生就是原住民,他们对新技术的理解、应用和探索得心应手,天然使用 AI 思维构建应用的模式。

人们对 "AI 原生 " 充满好奇,不仅是想了解其全新模式内涵,也想知道下一个风口将从哪里发起。本刊将定期汇总盘点国内外最新的 AI 原生应用,希望为读者提供创新发展趋势的信息和思考。

多模态生成式 AI 竞赛进行中

从 2023 年国内妙鸭相机爆火,到 2024 年初 Sora 引爆全球,AGI 所能呈现的内容深度正在迅速下潜。

《福布斯》杂志对 2024 年 AI 领域关键创新的预测之一就是多模态生成式 AI,称此类系统能处理文本、声音、旋律和视觉信号等各种输入信息,并将其融合起来进行综合理解。随着多模态技术的不断发展,AI 模型将迎接更加复杂多样化的交互场景,有望在智能家居、智慧城市、医疗诊断、自动驾驶等领域打开全新的应用空间。

视频生成

Sora 发布被认为是 AGI 实现过程里的重大里程碑事件,而不仅仅只是视频生成技术的突破。它对语言的理解也达到了一个新的层级,使其能够准确地理解提示词,并生成表达充满活力的情感的视频。它建立在过去对 DALL · E 和 GPT 模型的综合研究之上,提出了一种新的模型可能,不仅可以理解用户在提示中提出的要求,还能理解物理世界的存在方式。

在 AI 巨头 OpenAI 入局之前,创业企业 Runway 和 Pika 被认为是这一赛道的佼佼者。

Pika Labs 成立于 2023 年 4 月,同年 11 月发布首个产品 Pika1.0,能够生成和编辑 3D 动画、动漫、卡通和电影,并且普通用户还可以对其进行加工,被视为一款零门槛 " 视频生成神器 "。这支最初由 4 个人组建的团队,融资超过 5500 万美元,几乎所有 AI 领域的知名早期投资公司都参与了此轮融资。而就在 Pika1.0 发布才过去四个月不到,同赛道的 Sora 的横空出世,在 AI 视频生成这条路上,又增加了很多变数和可能性。

Pika 创始人郭文景在与钛媒体创始人赵何娟的对话中提到,目前生成式视频发展的一个重要限制是算法的成熟度,这也是 Pika 的核心主攻方向。" 我觉得视频跟语言模型不太一样,关于语言模型大家已经知道大概的方法,算法其实已经比较成熟了。但视频现在没有很好的算法,它不是一个规模化的问题,不是说现在大家的 GPU 不够多,很多时候其实是算法上还没有很好的一个思路。" 郭文景说。

3 月份,Pika 对超级合作者 ( Super Collaborator ) 和 Pro 用户开放测试了一项新功能:Sound Effects,声称可以给视频无缝生成音效。生成的方式有两种:提供 Prompt 或直接让 Pika 根据视频内容自动生成。Pika 还没有公开 Sound Effects 背后的原理,此前 Sora 大火之后,语音初创公司 Eleven Labs 就出过类似的配音功能。

另一家独角兽 Runway 成立于 2018 年,是一家 AI 视频编辑软件提供商,主要为设计师、艺术家和开发人员提供一系列的工具和平台,产品是帮助专业人士生成各种内容。Runway 创业之初的产品形态是一个关于机器学习模型的应用商店。随后公司基于 AI 算法,不断开发新的模型框架。2021 年公司与慕尼黑大学、海德堡大学等共同发表《High-Resolution Image Synthesis with Latent Diffusion Models》;2022 年,公司构建了 Stable Diffusion 的原始版本,并将该技术集成进设计软件的功能中。2023 年 2 月 6 日,Runway 发布了 Gen-1,可以通过文本提示或参考其他图像中的风格,对原视频进行编辑,即在原视频的基础上生成新的视频 ( Video to Video ) 。随后三个月内,再次推出了 Gen-2,支持由文字生成视频。用户可以输入原创的文本提示,或者根据系统提供的自动提示建议进行视频生成。Gen-2 还支持高级设置优化,用户可以在网页上微调生成的视频。

2024 年 3 月,以色列初创公司 Lightricks 也发布了一款 AI 驱动的电影生成和剪辑软件—— LTX Studio。只要通过文字,它就能直接生成复杂的剧情,包含语音、音效、视频画面。LTX Studio 结合了多种 AI 技术,涵盖了创作过程中的各个环节。其中,公司独创的文生视频模型—— Long Animate Diff,能够创作出帧数在 16 至 64 之间的视频。此外,团队还发布了另一款专门用于创作 32 帧视频的模型。与 Long Animate Diff 相比,它在视频质量上通常有更出色的表现。不过,对于背景音乐,公司选择了第三方的音乐资产供应商,因为他们认为目前的 AI 技术还无法创作出符合要求的背景音乐质量。

在国内,爱诗科技 PixVerseAI 能接受包括图像、文本和音频在内的多种数据源作为输入,基于这些输入生成连贯、逼真的视频内容;该平台能在较短时间内将用户提供的素材转化成视频,极大提高了视频制作的效率;且生成的视频不仅局限于简单的转译,还能具有较高的艺术性和创造性,适合用于制作营销视频、社交媒体内容、教育材料等多种应用场景;用户可以根据自身需求对生成的视频进行一定程度的个性化设置和调整。

音频生成

在 Suno 之前,已经有不少企业推出过 AI 音乐生成器,比如 Adobe 的 Project Music GenAI,YouTube 的 Dream Track 和 Voicify AI ( 现在的 Jammable ) ,但只有 Suno 被称为 " 音乐界的 ChatGPT"。其与众不同之处在于,Suno 可以根据简单的提示创建从歌词到人声和配器的所有内容。

目前,SunoV3 在以下几个方面具有显著优势:更好的音频质量;更多样化的风格和流派;更强的提示遵从性,包括更少的幻觉和更优雅的结局。

通过 SunoV3,用户现在可以使用免费账户创建两分钟时长的完整歌曲,具体效果取决于自己选择的流派。Suno 团队还表示,V4 已经在开发之中,并将推出一些令人兴奋的新功能。

值得注意的是,Suno 并未公布过任何训练细节。Suno 首席执行官兼联合创始人 Mikey Shulman 在采访中表示:" 并非所有音频都是通过 Transformer 完成的,有很多音频是通过扩散完成的,这两种方法各有利弊。"

图像与文本生成

2023 年 7 月,妙鸭相机凭借其 AI 图像生成技术,在市场上迅速走红。用户通过上传一定数量的照片,就可以通过妙鸭相机 AI 技术生成高质量的多样化风格写真照片。FaceChain/FaceChain-FACT 算法使得妙鸭相机生成的图片面部表情自然、细节丰富。此外,其还具备 AI 修图、数字分身创建、模板选择等能力。

在图片生成之上再加入情节故事,童语故事 ( ImageStory ) 是国内首个 AIGC 的儿童绘本产品,用户可以在小程序里创建数字分身,为孩子定制特定主题的童话绘本和短视频故事。

童语故事生成式绘本的两大基础要素是文字和图片,与此对应,童语故事选用了通义千问和通义万相来打造这两项基础能力。文字方面,文字生成的核心是通义千问的深度学习模型。在 " 童语故事 " 小程序上生成 AI Story 只需要三步:第一步,选择故事角色。用户可以定制自己喜欢的 IP 角色,也可以上传照片创作自己的数字分身。第二步,输入故事主题思想。用户如果没有灵感可以选择 " 创作灵感 " 和 " 随机一个 "," 童语故事 " 提供了 20 个睡前故事和育儿故事。第三步,选择朗读音色、画面风格和字数。朗读音色提供多种风格、不同年龄声音,画面风格包括扁平插画、油画、写真等 10 种供用户选择。设置故事字数和段落 / 图片数,多情景故事还支持自动分集,以及用合集来生成。简单设置完成后,点击 " 立即制作 " 即可。

上线数月以来," 童语故事 " 得到了消费者的喜爱,更得到了影视公司、出版社、专业儿童作家、电商平台的认可 ",童语故事 " 的 MAU ( Monthly Active Use,月活用户 ) 涨到了 50 万,微信小程序用户平均停留时间达到 8-15 分钟,这样的用户时长在 "AI Story" 赛道已经排得上全球前三。

将文生图的创意进一步专业化,供春 AI 是紫砂壶行业内第一家 AIGC 辅助设计工具。这一小众行业有方言、圈子和文化等地域壁垒,且紫砂设计需要师傅的认可,并且大部分 AI 设计图师傅会在落地过程中主动微调 ( AI 设计出来的紫砂壶大部分需要人工调整 ) ,属于细分行业领域,市场上通用的大模型反而不适合对接 ( 设计出来的图大部分不可用 ) ,需要基于小灵快和开源的模型做持续的训练。

目前供春 AI 已经成为传统工艺美术从业者的好助手,其产出的每 30~50 张图中大约有 1 张是可以被资深工艺美术师认可的,已有 2000 多位工艺美术从业者使用供春 AI 设计紫砂壶。通过 AIGC 作为辅助工具,工艺美术师制作的工艺品已经落地 100 多件。从商业模式上,供春 AI 有一定的可复制性,目前供春 AI 已在其他陶瓷产区进行陶瓷艺术设计的推广复制。

" 助手 " 新形态:AI Agent 快速演进

人工智能领域著名学者、斯坦福大学教授吴恩达指出:AI 智能体工作流 ( AI Agentic Workflows ) 将在今年推动人工智能取得巨大进步,甚至可能超过下一代基础模型。他呼吁所有从事人工智能工作的人都关注 AI 智能体工作流。

初创企业 Cognition AI 近期公布了全球首个 AI 软件工程师 Devin。在宣传中,Devin 能够将用户的提示词直接转化为网站或者电子游戏。它能自主下载代码、搭建环境、执行代码、修复 bug 并完成任务,而且完成这些端到端的任务只需一个指令。

在 SWE-bench 基准测试中,Devin 能够解决 13.86% 的问题,而 GPT-4 仅能处理 1.74% 的问题。更重要的是,Devin 无需人工干预,而 GPT-4 则需要人工提示指定处理文件。

Devin 一经发布,便引爆了整个科技圈,但在此之前绝大多数人可能根本没听过这家公司,毕竟他们在发布两个月前才真正在公众面前亮相。这家仅有 10 名员工的公司,从 Peter Thiel 的风险投资公司 Founders Fund 及其他资方 ( 包括前 Twitter 高管 Elad Gil ) 处成功筹集到 2100 万美元。这些投资方所看中的,正是 Cognition AI 的创始团队及其主要成果 Devin。

Cognition AI 在设计 Devin 时的一大亮点,就是该公司在计算机推理能力方面取得了突破。从 AI 的角度来讲,推理意味着系统不仅能够预测句子中的下一个单词或者一行代码中的下一片段,更能够以近似人类的方式思考并找到合理的问题解决方法。AI Land 认为推理是驱动行业发展的下一波大势,不少初创企业也都在着力展示自己在这方面的技术能力。

不同于现有其他 AI 助手,Devin 不仅能够提供编码建议并自动完成部分任务,甚至可以独自承担并完成整个软件开发流程。其使用方式也相当简单,只需提交一项任务——比如创建一个网站,展示悉尼市所有意大利餐厅的地图——该软件就会执行搜索来查找餐厅、获取相应地址与联系信息,而后构建并发布显示信息的站点。在运行期间,Devin 还会列出它正在执行的所有任务,甚至在编写代码时持续测试,自行查找并修复 bug。

总体而言,Devin 可以规划和执行需要数千个决策的复杂工程任务。Devin 可以回忆每一步的相关背景,随着时间的推移学习并修复错误。

研发团队还为 Devin 配备了常见的开发人员工具,包括沙盒计算环境中的 Shell、代码编辑器和浏览器,以及人类开发者完成工作时所需的一切其他工具。最后,研发团队还赋予了 Devin 与用户积极协作的能力。Devin 能够实时报告协作进展,接受反馈,并根据需要与用户一起进行设计选择。

Cognition AI 在如此短的时间内取得重大突破的方式仍然是个未解之谜,其 CEO Scott Wu 拒绝透露太多关于该技术的底层细节,只表示他的团队找到了将 OpenAIGPT-4 等大语言模型 ( LLM ) 与强化学习技术相结合的独特方法。

Cognition AI 公司并不是唯一一家致力于构建 AI 编码工具的企业。

今年 2 月份,初创公司 Magic AI 陆续获得了谷歌母公司 Alphabet 旗下的 Capita lG 领投的 2800 万美元,以及 GitHub 前 CEO Nat Friedman 和他的投资合伙人 Daniel Gross 投资的 1.17 亿美元资金。

Magic AI 私下宣称其能够实现类似于 OpenAI 去年开发的 "Q 算法 " 的主动推理能力,称它开发的新型大语言模型更接近于人类的思维方式,能实现全自动化编程,打破现有的半自动化代码编写。类似于一个真正的编程人员。不过,Magic AI 选择从零开始设计自己的模型和其他底层技术,希望借此保障业务独立性。这家初创公司尚未对外展示其 AI 系统。

国内,除了大厂纷纷推出 Agent 产品,这一赛道也涌现了大批创业企业,并与各行业快速融合落地。

例如,实在智能在 2023 年 8 月份发布了自研垂直 " 塔斯 ( TARS ) 大语言模型 ",基于此结合 RPA 与 AI Agent,即插即用的产品级 TARS-RPA-Agent 由此诞生;澜码科技在 2023 年 12 月 20 日正式发布的 AskXBOT 平台,是其自主研发基于 LLM 的 Agent 智能体与工作流设计、开发、使用、管理、知识沉淀的一站式平台;智谱 AI 今年 1 月份发布了第四代多模态基座大模型 GLM-4 系列,并上线了全新 GLM-4 的 All Tools ( 所有工具 ) 、GLMs 个性化智能体定制能力 ......

结语

通过上述热点 AI 应用创新项目,我们可以看到新技术的突破方向,也发现基于生成式 AI 迸发出的全新商业前景落地的可能性。

但一个现实的问题是:这些应用和企业是昙花一现,还是会持续繁荣?

红杉资本在《Generative AI ’ s Act Two》中指出,目前生成式 AI 应用的最大问题,是需要证明自身的价值,因为目前以基础大模型为先的应用用户留存率明显不够。当前头部 App 消费级公司,第一个月的用户留存率能达到 60%~65%,高的甚至能达 85%。生成式 AI 应用的用户留存率,中位值只有 14%。这意味着,用户还没有在生成式 AI 产品中找到足够价值,能够每天都使用。因此,如果开发者想要建立起持久的业务,就需要解决用户留存问题。因此,生成式 AI 真正的商业价值还在于各种应用场景的发掘。

此外,不仅是应用自身的价值,当前很多 AI 创业企业的竞争力严重依赖核心创始团队,也由此造成了公司运营、业务持续等方面极大的不稳定性,很多公司还没有出现可持续的商业模式就已经要化为泡沫。

2024 年 3 月 23 日,Stability AI 的 CEO 宣布辞职,这家公司培育出的 Stable Diffusion 开源文生图大模型在业内颇具影响力。而在 CEO 辞职之前,媒体称曾参与开发 Stable Diffusion 模型的几位关键开发人员都已经离开了。据报道,Stability AI 资金耗尽,无法支付训练大模型所需的 GPU 集群费用,外界普遍认为这家公司将面临破产。

早在 2022 年就推出了 AI 助手 ACT-1 的 Adept 团队中两位联合创始人离开后创立了自己的创业公司 Essential AI。

另一家 AI 独角兽公司 Inflection AI 也岌岌可危,在 2023 年 6 月底,这家公司宣布融资 13 亿美元,估值达到 40 亿美元,成为仅次于 OpenAI 和 Anthropic 的全球第三大生成式 AI 独角兽。但今年三位创始人中的两位都投奔微软成立新的公司。这些创业公司的发展与此前 OpenAI 的 " 宫斗 " 和几乎重新自立门户的经历也很像。

AI 时代的创新巨轮才刚刚开始转动,技术成熟度曲线下 AI 创新将走出怎样的周期,我们持续关注。

本文根据公开信息综述,部分内容选自以下文章:

1.Sora 发布后,Pika 创始人独家回应钛媒体:很振奋,我们将直接冲

2.90 后华人团队真来砸程序员饭碗了 ! 推出全球首个 AI 超级工程师:拥有全栈技能,一个指令就能完成整个开发过程

3.2024 年,中国 AI 应用「大盘点」| 产业 AI4. 红杉资本:生成式 AI 的第二幕

5. 词曲创作只需几秒,「AI 作曲家」Suno 引爆音乐圈,第一手体验和攻略来了

6. 中泰证券《AI 生成视频专题报告:Runway 基础模型快速迭代 , 视频生成领域的先行者》

7.AI 版西游记震撼百万网友 !AI 电影颠覆好莱坞,手把手打造爆款视频

本文摘自《云栖战略参考》总第 16 期

扫码限时申领纸质版

↓↓

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

智慧云

智慧云

ZAKER旗下新媒体协同创作平台

相关标签

ai 阿里云 自动驾驶 准确 钛媒体
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论