IT之家 08-09
iPhone AI提速5倍,苹果黑科技来了
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

IT 之家 8 月 9 日消息,科技媒体 9to5Mac 昨日(8 月 8 日)发布博文,报道称苹果在最新研究中,提出了 " 多 token 预测 "(MTP)技术,不牺牲输出质量的情况下,可将大语言模型响应速度提升 2~3 倍,特定场景下最高可达 5 倍。

IT 之家援引博文介绍,传统大语言模型(LLM)采用自回归方式生成文本,逐个输出 token,为保证连贯性,每一步都依赖前序内容。

例如生成 "The cat is black" 时,模型需在输出 "is" 后,基于上下文和训练经验,从词汇表中计算 "black" 等候选词的概率,再选择最合适的词。这种串行机制虽准确,但速度受限,尤其在移动设备上影响用户体验。

苹果在新论文《Your LLM Knows the Future: Uncovering Its Multi-Token Prediction Potential》中发现,尽管模型仅被训练为预测下一个词,其内部其实蕴含对后续多个词的潜在判断能力。

研究团队据此提出 " 多 token 预测 "(MTP)框架,支持模型一次生成多个词。例如输入 "The cat is ",模型可直接输出 "very fluffy",大幅提升生成效率。

该技术核心在于引入 " 掩码 "(Mask)token 作为占位符,并让模型并行推测后续多个词。每个推测结果会立即与标准自回归解码结果比对,若不符则自动回退到逐词生成模式,确保输出质量不受影响。这一 " 推测 - 验证 " 机制在提速的同时,保留了传统方法的准确性,实现速度与质量的平衡。

实验基于开源模型 Tulu3-8B 进行,苹果训练其最多推测 8 个后续 token。结果显示,在问答和对话等通用任务中,响应速度平均提升 2 – 3 倍;在代码生成、数学推理等结构化场景中,提速可达 5 倍。

研究人员强调,性能提升未以牺牲生成质量为代价,关键在于采用了 " 门控 LoRA 适配 " 技术,动态调节参数,仅在需要时激活推测模块。

这项研究为设备端大模型部署提供了新路径。相比依赖云端计算,MTP 可在 iPhone、Mac 等本地设备实现更快响应,降低延迟与能耗。

虽然目前仍处于研究阶段,但其兼容现有模型架构的特点,使其具备较强落地潜力,未来或可集成至 Siri、Apple Intelligence 等产品中,提升用户交互体验。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

it之家 准确 用户体验 siri 数学
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论