太平洋电脑网 04-08
DeepSeek联合清华推AI对齐技术SPCT 降低训练成本并提升性能
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

【太平洋科技快讯】近日,深度求索 ( DeepSeek ) 与清华大学携手,共同推出了一项具有突破性的 AI 对齐技术—— SPCT ( 自我原则点评调优 ) 。该技术旨在颠覆传统 AI 模型依赖海量训练数据的模式,通过在推理阶段实现动态优化,显著提升输出质量。

SPCT 技术基于 " 原则合成 - 响应生成 - 批判过滤 - 原则优化 " 的递归架构,使 AI 模型在推理过程中能够实时自我修正,确保输出结果的准确性和可靠性。

拒绝式微调冷启动阶段:在此阶段,生成模型 ( GRM ) 被训练以适应各种输入类型,并学会以正确格式生成原则和点评内容。

基于规则的在线强化学习阶段:通过引入规则奖励机制,模型在这一阶段不断优化其生成的原则和点评内容,从而提升推理阶段的可扩展性。

在测试中,配备 270 亿参数的 DeepSeek-GRM 模型展现了惊人的性能,通过每查询 32 次采样的推理计算,达到了与 671B 规模模型相媲美的水平。此外,该模型采用的硬件感知设计融合了混合专家系统 ( MoE ) ,支持 128k token 的上下文窗口,单查询延迟仅为 1.4 秒。

SPCT 技术显著降低了高性能 AI 模型的部署门槛。以 DeepSeek-GRM 模型为例,其训练成本仅为 1.2 万美元,相较于同类模型动辄数百万美元的成本,实现了极大的成本优化。与 OpenAI 的 GPT-4o 模型相比,DeepSeek-GRM 的成本仅为后者的 1/525。

此外,SPCT 技术还减少了 90% 的人工标注需求,大幅降低了人力成本。相较于传统方法,SPCT 的能耗降低了 73%,更加环保节能。由于其出色的性能和低延迟设计,SPCT 技术为实时机器人控制等动态场景提供了新的可能性。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

ai 机器人 清华大学
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论