量子位 06-18
告别玄学选LLM!弗吉尼亚理工选型框架入选ICML 2025
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

还在靠 " 开盲盒 " 选择大模型?

来自弗吉尼亚理工大学的研究人员推出了个选型框架LensLLM——

大幅提升选型效果的同时,成本却降低近 90%。

众所周知,在大模型如雨后春笋般爆发的时代,选型成了 AI 工程师和研究员最大的痛点之一:

模型多如牛毛,怎么选才不会 " 踩坑 "?

微调代价高昂,怎么预测谁能表现最优?

资源受限,怎么才能用最少成本跑出最优解?

而使用 LensLLM 框架,不仅可以预测微调后的性能走势,还通过全新理论解释了大模型微调中一直难以理解的 " 玄学现象 "。

按照团队的说法,LensLLM= 用理论看清大模型未来 + 用极小代价选出最优解。

该研究被 ICML 2025 收录。

下面具体来看。

首度揭示:LLM 微调中的 " 相变 " 动力学

近几年,大语言模型(LLM)从学术走向产业,从 GPT 到 LLaMA,再到 Mistral、DeepSeek,光是名字就让人眼花缭乱。

但选错模型不仅会浪费 GPU 资源,更可能拖慢产品迭代速度,甚至导致项目失败。

现有方法依赖经验、调参和 " 玄学 ",在成本和效果之间很难找到平衡。

而 LensLLM 正是在这个背景下诞生,其目标是终结 LLM 选型 " 靠感觉 " 的时代

展开来说,LensLLM 的理论基础来自一项全新的 PAC-Bayes 泛化界限推导,首次从数学上揭示了 LLM 在不同数据规模下微调表现的非线性变化规律,具体表现为:

其中,n 是训练样本量,ℎ与模型参数的 Hessian 矩阵(衡量损失函数曲率和参数敏感性)紧密相关。

在此基础上,研究团队进一步推导出推论 1,将泛化界限简化为:

其中 C3 和 3 都是模型 / 任务相关的参数。

" 预幂律相 " → " 幂律相 " 的相变现象

在数据量较小时,模型处于 " 预幂律相 ",此阶段参数对损失非常敏感,表现极不稳定,性能提升有限;而当训练数据量超过某个临界点后,模型进入 " 幂律相 ",此时误差收敛明显,调参也更有效率。

这一 " 从不确定到稳定 " 的过渡,首次在理论上得到了严谨解释,并被写进了 LensLLM 的预测逻辑中。

下图反映了 LLM 微调过程中测试损失 L 随训练数据量 D 变化的相变现象。低数据量阶段为预幂律相,高数据量阶段为幂律相,两者之间存在明显的转折点。

实锤 LensLLM:用 NTK 模拟微调,用极小代价选出最优模型

理论解释只是开始。更重要的是——LensLLM 还能算准

研究团队构建了一个基于神经切线核(NTK)增强的缩放律模型,能够在只微调极少量数据的前提下:

精确拟合整个微调曲线(如图 2 和表 2 所示)

预测最终测试性能

排出最优模型排名

下图 2 显示了,LensLLM(蓝色方块)在 FLAN、Wikitext 和 Gigaword 数据集上对 OPT-1.3b、GPT-2 和 T5-base 模型性能的曲线拟合效果。

可以看到,LensLLM 的 RMSE 值显著低于 Rectified Scaling Law(红色三角形),误差带更窄,表明其预测更稳定准确。

下表 2 为预测测试损失与实际测试损失方面的均方根误差(RMSE)对比(× ) 。

不需要完整训练,不需要大规模试错,就像提前 " 看穿 " 一个模型的未来走向

在 FLAN、Wikitext、Gigaword 三大数据集上,LensLLM 预测准确度远超基线方法(如 Rectified Scaling Law),RMSE 误差最小可低至原来的 1/5

下图 3 为 LensLLM 在 FLAN、Wikitext 和 Gigaword 数据集上的 Pearson 相关系数和相对准确率表现。

LensLLM(最右侧深蓝色条形)在所有数据集上均显著优于 Rectified Scaling Law、NLPmetrics、SubTuning、ZeroShot 和 ModelSize 等基线方法,展现了其在模型选型中的卓越能力。

大幅提升选型效果,成本却降低近 90%

选得准是一方面,选得快也是关键。

LensLLM 引入了渐进式采样机制,计算成本比 FullTuning 方法最多降低 88.5%,且在模型排名任务中保持高达 91.1% 的选型准确率,真正实现成本低、精度高、泛化强

图 4 显示了 LLM 选型性能与计算成本的 Pareto- 最优曲线。LensLLM(橙色点)在显著降低 FLOPs(计算成本)的同时,保持了高水平的 Pearson 相关系数,相较于 Rectified(蓝色点)、SubTuning(绿色点)和 FullTuning(紫色点)展现出更优的效率。

就是说,在选型性能与计算代价之间,LensLLM 达到显著的 Pareto 最优。

未来场景:边缘部署 / 模型迭代 / 个性化推荐

团队表示,LensLLM 不只是选型利器,更有潜力成为模型评估与管理的核心组件:

资源受限部署场景:帮助边缘设备快速选出兼顾精度与效率的模型;

A/B 测试与快速迭代:缩短新模型上线周期,节省 GPU 试错成本;

定制化微调:根据用户任务和数据量,找到最合适的预训练模型,从而达到最佳效果。

未来他们将探索将 LensLLM 拓展到多任务环境MoE 等复杂模型结构,构建更通用的智能模型选型系统。

论文:https://arxiv.org/pdf/2505.03793

开源地址:https://github.com/Susan571/LENSLLM

作者联系方式:xyzeng@vt.edu, zhoud@vt.edu

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—    —

点亮星标

科技前沿进展每日见

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

ai 曲率 效果 规律 工程师
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论