雷锋网 11小时前
趋境开源框架 KTransformers 成主流大模型首选,Qwen、Kimi、智谱 AI 推荐,单卡跑万亿模型
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

全球头部开源模型方的共同选择,印证了一款底层框架的硬实力。趋境科技与清华共同开源的 KTransformers,已成为 Qwen、Kimi、智谱 AI 等多个主流大模型发布首日的推荐推理引擎,其工程实践与兼容性也被多家一体机产品线采纳,成为被开发者、厂商与开源社区广泛复用的共建式底层框架。

技术与生态双认可:成功入选 " 计算机系统领域奥斯卡 " SOSP 2025

KTransformers 是一个高性能异构推理框架,专注于高效利用底层 GPU、CPU、内存等多样化算力,让大模型在更低算力、更灵活的硬件架构上高效运行。其论文《KTransformers: Unleashing the Full Potential of CPU/GPU Hybrid Inference for MoE Models》成功入选 " 计算机系统领域奥斯卡 " SOSP 2025,该顶会过去几十年间见证了虚拟化、分布式文件系统等无数里程碑式技术成果的首次亮相,此次入选标志着 KTransformers 的技术实力获得全球顶尖认可。

11 月 6 日,月之暗面发布 Kimi-K2-Thinking 模型后,KTransformers 迅速完成全面适配,支持用户在单卡环境下完成推理任务,2 卡环境下完成 LoRA 微调任务,大幅降低部署与定制化门槛。同时,趋境科技也已完成该模型在昇腾 NPU 上的全面适配,提供完善的全国产化推理解决方案,进一步拓宽其应用场景。

推理与微调双高效:KTransformers+SGLang 实现高性能推理部署

在推理部署层面,KTransformers 与主流推理框架 SGLang 于 10 月达成合作,双方架构合入同一分支。在 Kimi-K2-1TB 的模型推理任务中,用户仅需简单安装 SGLang 与 KTransformers CPU 内核,下载官方模型及量化权重,即可通过一条命令启动服务,且仅需单张消费级 GPU+CPU。这一合作融合了 GPU+CPU 异构推理创新模式与全 GPU 传统推理模式,推动大模型推理向更高性能、更低成本演进,迈向更广泛的产业落地。

在微调部署层面,KTransformers 与 LLaMA-Factory 深度集成,支持 LoRA 等轻量级微调方法,仅占用约 41 GB 显存 +2T 内存,就能实现 46.55 token/s 的微调吞吐量。传统上,LoRA 微调千亿模型成本高达数百万,而趋境的异构微调能力将资源需求降低到单个消费级 GPU(如 RTX 4090)起,让高校、中小型实验室、初创公司甚至个人开发者都能参与大模型定制。该方案在 DeepSeek-14B 模型上展现了超过传统方案 1.8 倍的吞吐、显存占用降低 82%,是消费级显卡上微调超大参数 MoE 模型的唯一可行方案。

对趋境科技而言,KTransformers 承载的是 " 普惠顶尖 AI 智能与隐私 " 的价值理念。大模型时代需要更广谱的推理基础设施路线,趋境已与多个国产 CPU、GPU 硬件平台合作,推进全国产高性价比方案;为数十家行业开发伙伴提供算力底座,让更多团队用得起、调得动大模型。今天的 KTransformers,已让大模型推理脱离高端算力垄断;未来,趋境将继续推动 AI 能力普惠,让大模型真正融入各类业务场景。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

开源 ai kimi 奥斯卡 计算机
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论