在当下,多模态融合已成为 AI 领域的高确定性趋势。这一趋势的形成,与大语言模型的局限性密切相关。尽管大语言模型在自然语言处理方面取得了显著进展,但在面对复杂多样的现实世界数据时,其短板逐渐显现。
为了突破大语言模型的局限,多模态融合技术应运而生。所谓多模态,简单来说,就是 AI 能够同时处理和理解来自不同来源的信息,比如文本、图像、声音、视频等。值得注意的是在 DeepSeek-R1 爆火之后,DeepSeek 紧接着在北京时间 1 月 28 日凌晨,于 GitHub 平台发布了 Janus-Pro 多模态大模型,进军文生图领域,这说明多模态发展是行业的大趋势。
多模态 AI 应用市场未来增长或实现五年五倍
而通过多模态融合技术还可以让 AI 系统能够像人类一样,从多个维度感知和理解世界。例如,当我们向多模态 AI 描述 " 一只在花丛中飞舞的蝴蝶 " 时,多模态 AI 不仅能理解文本含义,还能生成对应的生动图像,甚至模拟出蝴蝶飞舞时的轻柔音效。
因此,多模态融合技术的应用场景极为广泛。在教育领域,它能为学生打造个性化的学习体验,结合文本讲解、图像演示和音频讲解,让知识传授更加生动形象;在娱乐行业,可实现更逼真的虚拟角色互动,虚拟偶像不仅能与用户流畅对话,其表情和动作也能与对话内容完美匹配;在智能家居中,用户通过语音指令,结合手势或面部识别,就能轻松控制家电设备,为生活带来极大便利。
市场空间上,根据全球性市场研究和咨询公司 Omdia 的研究报告显示,多模态市场 AI 将在五年内增长五倍,从 2024 年的 146 亿美元 ( 1060 亿元人民币左右 ) 增长到 2029 年的 728 亿美元 ( 5300 亿元人民币左右 ) 。
多模态 AI 海外代表企业:OpenAI、谷歌
面对广阔的市场空间,国内外有许多公司都在布局相关领域。在海外市场上,代表企业是 OpenAI 和谷歌。
OpenAI 方面,其旗下 Sora 的出现意义重大,是视频生成领域的一个重要转折点。Sora 展示了利用 DiT 可扩展架构的有效性,吸引了全球同行们快速跟进,推动视频生成从学术研究到工业级应用的重大跨越。
谷歌方面,2024 年 12 月,谷歌发布了全新多模态大模型—— Gemini 2.0,被称为 " 迄今为止谷歌最强大的 AI 模型 "。与 1.0 版本相比,Gemini 2.0 在多模态能力上实现了突破,支持图像和音频输出,并增强了工具使用能力,这将推动谷歌构建新的 AI 智能体,进一步实现 " 通用助手 " 的愿景。
多模态 AI 国内代表企业:万兴科技
对于国内投资者而言,可能更关注的是国内企业。在一众相关企业中,笔者认为万兴科技 ( 300624.SZ ) 或许有望成为行业代表者。
这一判断的依据首先在于其足够聚焦,有稀缺优势。正所谓专业的人做专业的事,虽然国内做文生视频模型的企业有很多,但是专注于做创意类音视频模型及 AI 应用的 A 股上市企业屈指可数。万兴科技此前推出了国内首个音视频多媒体大模型万兴 " 天幕 ",涵盖语言、音频、图像、视频等多模态能力。同时,万兴科技构建了一个矩阵式的数字创意软件产品创新平台,从技术、营销到管理赋能,较为全面地支持创作者。因此,万兴科技在业内具有一定的稀缺性。
第二个依据是万兴科技的先发优势。在日新月异的 AI 行业,谁能率先做出改变,谁就能抢占先机。面对 DeepSeek 带来的行业变化,万兴科技率先做出改变。具体来看,2 月 4 日,万兴科技率先完成深度求索 ( DeepSeek ) 最新推理大模型 DeepSeek-R1 的深入适配,旗下视频创意、绘图创意及文档创意软件业务产品,诸如万兴喵影、亿图图示、亿图脑图 MindMaster、万兴 PDF 等均已融合 DeepSeek-R1 大模型相关能力。
第三个依据是万兴科技的价值优势。公司的产品抓住了用户痛点、实实在在地为客户创造价值。以公司旗下产品万兴播爆为例,其就是洞察到跨境营销视频制作外籍演员难找、多语言难适配、视频制作周期长成本高等痛点而推出,大幅缩短了制作周期,降低了制作成本和门槛。而产品好不好用户数量最有发言权,公开资料显示,万兴科技业务已覆盖全球 200 多个国家和地区,累计用户数超 15 亿。
第四个依据是万兴科技的数据优势。目前包括 Sora、MidJourney 等在内的大部分视频 / 图像生成模型,都主要是以海外数据进行训练,对中国元素的生成仍旧不尽如人意。而万兴 " 天幕 " 大模型依托大量本土化数据,能够更好地理解和生成符合用户期望的音视频内容,满足本土内容创作的需求。
对于公司的行业地位和未来,机构们也表达了看好。例如,平安证券指出公司深耕视频创意与数字办公业务,产品线对标全球创意软件巨头,同时面对当下 AIGC 多模态领域的机遇,公司持续加深核心产品智能化,多款产品在业内率先实现 AI 应用落地,将为公司后续业务增长奠定基础。
登录后才可以发布评论哦
打开小程序可以发布评论哦