驱动之家 前天
腾讯混元发布全新视频生成模型:14G消费级显卡流畅运行 生成5-10秒高清视频
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

快科技 11 月 21 日消息,今日,腾讯混元大模型团队宣布开源最新视频生成模型 HunyuanVideo 1.5,这是一款基于 Diffusion Transformer(DiT)架构、参数为 8.3B 的轻量级视频生成模型,支持生成 5-10 秒的高清视频。

该模型已经抢先在 " 元宝 " 上线,普通用户可以直接体验,可通过两种方式:一是输入文字描述(Prompt),直接实现 " 文生视频 ";二是上传图片配合 Prompt,轻松将静态图片转化为动态视频。

据介绍,HunyuanVideo 1.5 模型能力全面,支持中英文输入的文生视频与图生视频。

其中,图生视频能力展现出图像与视频的高度一致性,生成的视频在色调、光影、场景、主体和细节等方面都能与原图较好匹配。

模型还具备强指令理解与遵循能力,能够精准地实现多样化场景,包括运镜、流畅运动、真实的物理规律遵循、写实人物和人物情绪表情等多种指令。

在元宝中可以通过文字和图片生成视频

同时,HunyuanVideo 1.5 支持写实、动画、积木等多种风格,并可在视频中生成中英文文字,满足多样化内容创作需求。

在画质方面,模型可原生生成 480p 和 720p 高清视频,并可通过超分模型提升至 1080p 电影级画质。

此前,视频生成领域的开源 SOTA 旗舰模型至少有 20B,需要超过 50GB 显卡方可部署。

HunyuanVideo 1.5 定位为 " 开源小钢炮 ",显著降低了使用门槛可在 14G 显存的消费级显卡上流畅运行,真正让每一位开发者和创作者都能 " 玩起来 "。

HunyuanVideo1.5 通过多层次的技术创新,实现了生成效果、性能与尺寸上的平衡。

HunyuanVideo 1.5 创新的 SSTA 稀疏注意力机制(全称 Selective and Sliding Tile Attention, 选择性滑动分块注意力)在保证高质量生成的同时显著提升推理效率,配合多阶段渐进式训练策略,在运动连贯性、语义遵循等关键维度均达到商用水平。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

开源 技术创新 物理 腾讯混元大模型 规律
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论