5 月 21 日,在腾讯云 AI 产业应用峰会上,腾讯云副总裁李力宣布了腾讯云智算的全新升级。新升级瞄准 AI 应用和模型爆发对基础设施带的来全新挑战,在效能、可靠性、易用性三大方向上全面提升,将为 AI 大模型训练、智能体部署等场景提供更全面的基础设施能力支持。
李力表示,从云计算时代到 AI 时代,云基础设施的技术进化始终以场景作为牵引。随着大模型的爆发以及智能体、智驾等应用场景加速落地,腾讯云智算会以 AI 原生为出发点,打造安全灵活的高性能底座,与开发者和企业共同探索智能化转型的创新路径。
在效能维度,腾讯云智算针对数据处理效率低、资源利用率低等痛点问题,升级了多个技术能力。基于国内首个支持跨卡型 GPU 调度的 Serverless 平台,腾讯云智算最高可支持 10 万级并发数据任务处理,最高请求数能达到行业领先的百万量级;通过腾讯云存储数据万象中预置的 100 多个数据处理任务模板,帮助企业数据打标效率提升 50%。
在大模型训练和推理场景中,腾讯云智算基于星脉自研通讯库,双端口网卡带宽利用率达到峰值相比 DeepEP 性能可以再提升 30%;同时,腾讯云智算打造了更高性价比的多机互联网络 vRDMA,并将损耗比降低至不到 2%,模型训练效率接近无损扩展。
某头部车企在智驾模型的训练中,数据标注效率提升了 50%,数据处理整体成本降低 70%,训练性能提升 30%,模型迭代周期降低了 40%。
在可靠性维度,针对 AI 基础设施容易出现的服务不稳定、扩容速度慢、 访问速度慢等技术难点,腾讯云智算通过自研 AI 服务器与智能巡检系统,将千卡集群的日均故障率控制在 0.16% 以下;依托腾讯云存储 GooseFS,模型分发时间从 1 小时缩短到了 20 分钟;同时,腾讯云全球 50 多个可用区,则可使 AI 应用服务就近接入,服务稳定性提升 57%,扩容速度提升 2 倍。
某头部手机厂商的 AI 助手项目应用该方案后,服务网络丢包和抖动均下降 99%,服务稳定性提升 57%,同时实现 200% 的扩容速度提升。
在易用性维度,为加速智能体规模化落地,腾讯云智算升级了 AI 原生工具链。其中,向量数据库全面支持向量 + 关键字混合检索,最高支持千亿级数据处理与 500 万 QPS 高并发检索;腾讯云智能日志服务可支持统一日志上报与可观测大盘,支持完整链路追踪与异常 3 分钟定位;腾讯云智算还升级了覆盖大模型全生命周期的安全解决方案,实现安全事件两小时内快速响应。
某头部房产中介平台搜索业务,借助腾讯云向量数据库,数据召回率增加 30%,检索时间降低 50%,同时依靠日志和安全能力,异常定位效率提升 30%,安全响应时间缩短 90%。
目前,腾讯云智算已深度服务于智能体及 AI 应用、具身智能、自动驾驶、互联网应用等多个领域。在 Gartner 最新发布的生成式 AI 基础设施象限中,其产品性能与未来潜力均位列亚太厂商首位。
值得一提的是,腾讯云针对 DeepSeek 开源的 DeepEP 通信框架进行深度优化,使其在多种网络环境下均实现显著性能提升。相关技术方案也获得了 DeepSeek 公开致谢,称这是一次 "huge speedup" 代码贡献。
登录后才可以发布评论哦
打开小程序可以发布评论哦