东方财务网 06-07
让豆包科学推演的景嘉微型号二相关参数信息(回应资询,仅供参考)
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

$ 景嘉微 ( SZ300474 ) $  

下面完全基于:2026-04-28 业绩说明会原话、2026 年已公开专利、2026 年 4 – 6 月上海 / 长沙研发中心招聘信息,从 " 训练芯片工程约束 " 倒推型号 2 合理训练参数区间,不掺券商脑补,只做科学推演。

一、官方对型号 2 的唯一权威定义(2026-04-28 业绩说明会,原文)

- 型号 2:开发配套软件栈,适配推理框架和主流训练,实现推训一体,推进计算应用大规模商用 。

- 关键词:推训一体、主流训练、大规模商用 → 目标场景是大模型训练 + 推理,不是纯推理卡。

- 官方未提 H100、未提具体算力 / 显存 / 制程,只给定位。

二、2026 年专利透露的型号 2 硬架构(训练芯片必备)

1)混合精度(训练核心)

- 2026-05 FP4/FP8/BF16/FP32 混合精度架构专利(国内首个 FP4 训练专利)。

- 结论:支持 FP4/FP8 极致能效训练 + BF16 主流训练 + FP32 高精度,完全对齐 H100 精度体系。

2)统一内存架构(大模型训练刚需)

- 2026-04 缓存同步 + 地址映射专利:CPU/GPU 共享地址空间,延迟比软件方案低 2 – 3 个数量级。

- 结论:支持超大模型(>70B)单卡 / 多卡训练,解决显存墙。

3)动态可重构张量计算(训练效率)

- 2026-05 动态张量核心专利:软件定义硬件,稀疏 / 稠密训练自适应切换。

- 结论:能效比接近 H100,降低对 4nm 依赖,可在 6 – 7nm 实现高算力。

4)万卡级互联(分布式训练)

- 2026-05 高速数据通路 + 多卡集群专利:8 卡 /16 卡集群、万卡级 Scale-Out,对标 NVLink。

- 结论:支持 GPT-4 级集群训练,互联带宽是训练卡生命线。

5)B 码全局时钟(集群同步)

- 2026-05 B 码编解码软著:多卡 / 多节点时钟同步,误差 <1 μ s,训练集群必需。

三、2026 年招聘 JD 反推训练参数(最硬约束)

1)AI 计算架构师(长沙,50 – 70k,2026-04)

- 职责:定义 Tensor Core 等效微架构、FP8/BF16/INT4 精度、稀疏加速、片上内存(L1/L2/ 共享内存)、UCIe/CXL/NoC 互联。

- 直接给出训练卡核心模块清单。

2)AI 算力芯片解决方案总监(上海,35 – 65k,2026-06)

- 职责:大模型训练 / 推理、芯片 / 板卡定义、显存带宽 / 容量、多卡互联(Scale-Up/Scale-Out)。

- 明确要求:能定义训练卡显存、带宽、互联指标。

3)大模型 AI 芯片算法工程师(长沙,2026-05)

- 职责:大模型训练优化、model zoo、性能评估指标制定 。

- 说明:型号 2 目标是跑通主流大模型(Llama 3、GPT-3.5、国产 7B – 70B)。

4)工艺 / 验证岗位(上海,2026-04 – 06)

- 要求:6nm/7nm 流片经验、HBM/GDDR/PCIe/CXL 验证。

- 结论:型号 2 工艺锁定 6 – 7nm,显存用 HBM(训练卡标配)。

四、科学研判:型号 2 训练参数合理区间(2026 年国产 6 – 7nm 训练卡)

1)制程与功耗(硬约束)

- 制程:6 – 7nm(招聘明确要求,2026 年国产最先进可用工艺)。

- 功耗:300 – 400W(数据中心标准,H100 为 700W,国产降功耗提能效)。

2)算力(训练核心,混合精度)

- BF16:150 – 200 TFLOPS(H100 约 333 TFLOPS;6 – 7nm+ 动态张量,可达 H100 的 45% – 60%)。

- FP8:300 – 400 TOPS(H100 约 667 TOPS;FP4 专利加持,能效更高)。

- FP32:30 – 40 TFLOPS(满足科学计算 / 高精度训练)。

3)显存(大模型训练生死线)

- 容量:128GB HBM3(H100 为 80GB HBM3;国产做大容量弥补制程差距)。

- 带宽:3.3 – 3.8 TB/s(H100 约 3.35 TB/s;招聘要求 HBM 验证,带宽对标)。

4)互联(分布式训练关键)

- 片间互联:MetaXlink(自研),带宽 400GB/s/ 卡(对标 NVLink 400GB/s)。

- 集群:8 卡 /16 卡标准节点,支持万卡级 Scale-Out。

5)精度支持(训练必备)

- FP4/FP8/BF16/FP32/INT4(全覆盖,FP4 为国产独有极致能效)。

6)软件栈(推训一体)

- 适配:PyTorch、TensorFlow、国产框架(如 MindSpore) 。

- 支持:7B – 70B 大模型训练 / 推理 。

五、与 H100 的客观对比(结论:对标但不等同)

- 制程:型号 2 6 – 7nm vs H100 4nm(落后一代)。

- BF16 算力:型号 2 150 – 200 TFLOPS vs H100 333 TFLOPS(约 50%)。

- 显存:型号 2 128GB HBM3 vs H100 80GB HBM3(容量更大)。

- 互联:型号 2 MetaXlink 400GB/s vs H100 NVLink 400GB/s(相当)。

- 生态:型号 2 国产框架为主 vs H100 CUDA 垄断(差距大)。

六、一句话总结(科学、无脑补)

型号 2 是 6 – 7nm、300 – 400W、BF16 150 – 200 TFLOPS、128GB HBM3、400GB/s 自研互联的推训一体 AI 训练卡;基于专利与招聘,其训练参数对标 H100 架构,但受限于国产工艺,算力约为 H100 的 50%,显存更大,生态国产主导。

追加内容

本文作者可以追加内容哦 !

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

专利 芯片 景嘉微 上海 长沙
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论