用Attention和MoE预报天气，刷新公里级预测SOTA

近日，计算机视觉领域顶级国际会议CVPR 2026公布了论文录用结果。本次会议共收到 16,092 篇投稿，最终录用 4,090 篇，整体录用率为25.42%，其中仅有约2.5%的论文被评为Highlight Paper。

由香港科技大学郭嵩院士（IEEE Fellow）团队与上海 AI 实验室合作完成的论文《STCast: Adaptive Boundary Alignment for Global and Regional Weather Forecasting》成功入选 CVPR 2026 Highlight Paper。

该工作提出了一种全新的时空天气预报框架 STCast，通过自适应边界对齐和时间混合专家模型，在全球预报、区域预报、台风路径预测和集合预报四大任务上全面超越现有方法，取得了SOTA 性能。

研究背景与动机

准确的公里级区域天气预报是一项具有深远社会经济影响的重大科学挑战。现有的区域预报策略主要分为两类：

训练专用区域模型

忽略了对准确预报至关重要的跨区域依赖关系

从全球预报中裁剪区域

受限于静态且不精确的区域边界，泛化能力差

传统数值天气预报 ( NWP ) 方法通过求解偏微分方程来处理边界问题，但计算成本极高。而现有的 AI 方法通常只使用相邻区域来定义边界，这与成熟的 " 大气 - 海洋 - 陆地 - 生物圈耦合理论 " 相矛盾——该理论表明，区域大气中的任何一点都受到整个地球系统的影响。例如，西伯利亚的寒潮可以引发东亚的寒潮，青藏高原的地表加热可以同时改变东亚季风和北美急流。

为了解决这些挑战，团队提出了STCast 框架，它明确地模拟了地球系统中不断演变的全球 - 区域相关性。

三种区域预报策略对比

团队对比了三种主流的区域天气预报策略：

上图中，图 ( 1 ) 是三种区域预报策略示意图：

( a ) 现有 AI 方法：从全球预报中裁剪相邻区域，与区域变量一起进行预报；

( b ) 从头直接训练：仅使用目标区域的数据训练模型；

( c ) 团队的方法 ( STCast ) ：通过分布密集连接全球 - 区域模型进行预报。

图 ( 2 ) 是三种策略的区域预报性能对比。

定量结果表明，STCast 在所有变量的平均 RMSE 和 ACC 上都取得了最佳性能，显著优于直接训练和 OneForecast 方法。这验证了团队的动态、地球感知边界机制优于基于静态邻居的耦合方法。

STCast 整体架构

STCast 是一个统一的时空天气预报框架，能够同时处理四大关键任务：

△图 2：STCast 整体架构图

( a ) 低分辨率全球预报：包含编码器、处理器和解码器，集成了 Temporal MoE 模块；

( b ) 高分辨率区域预报：通过 Spatial-Aligned Attention 模块融合全球和区域信息；

( c ) 台风路径预测：利用预测的高分辨率 MSL 来推断台风路径；

( d ) 长期预报和集合预报：通过注入 Perlin 噪声生成多个预报集合。

STCast 的核心创新在于两个关键模块：Spatial-Aligned Attention ( SAA ) 和Temporal Mixture-of-Experts ( TMoE ) 。

核心创新一：Spatial-Aligned Attention ( SAA )

Spatial-Aligned Attention 模块将全局特征作为 Query 和 Key，将区域特征作为 Value，通过线性交叉注意力动态耦合全球和区域特征。

△图 3：Spatial-Aligned Attention 示意图

SAA 的关键机制包括：

大圆距离度量

更准确地测量地球表面上的空间关系

指数距离衰减函数

初始化可学习的全球 - 区域分布，确保远距离区域的影响较弱

高效注意力机制

将计算复杂度从 O ( n ² ) 降低到 O ( n )

通过这种方式，SAA 建立了一个最优的全球 - 区域分布，该分布在训练过程中不断优化，能够捕捉全球和区域大气模式之间的潜在相关性。

核心创新二：Temporal Mixture-of-Experts ( TMoE )

考虑到大气变量在不同月份存在显著差异，Temporal Mixture-of-Experts 将每个月的预报视为相对独立的任务，并使用混合专家模型来组织这些任务。

△ 图 4：Temporal Mixture-of-Experts 示意图

TMoE 的关键机制包括：

离散高斯分布

为每个月学习一个高斯分布来表示其时间特征

旋转对齐

将月份序列旋转对齐到输入变量，确保激活概率随时间距离单调递减

多专家激活

增强路由多样性，防止专家同质化

实验结果 1. 低分辨率全球预报

团队在 ERA5 数据集上评估了 STCast 的全球预报性能，与 Pangu-Weather、Graphcast、Fuxi 和 OneForecast 等主流方法进行了对比。

△ 表 1：全球天气预报性能对比

结果表明，STCast 在所有基准测试中都表现出一致的优越性，特别是在长期预测方面取得了显著的提升。这得益于团队的月份特定训练策略，它能够有效地捕捉大气系统中的季节依赖和月际变化。

2. 高分辨率区域预报

△ 图 5：东亚区域的高分辨率预报实验：直接训练、OneForecast 和 STCast 方法对比

在东亚区域的高分辨率预报实验中，团队对比了直接训练、OneForecast 和 STCast 三种方法。结果显示，实现动态边界条件的 STCast 相比直接训练的 STCast（无动态边界）和 OneForecast，RMSE 降低了 0.05，ACC 提高了 0.1。

3. 极端事件评估：台风路径预测

团队评估了 STCast 在两个近期台风事件上的表现：2024 年 5 月的台风艾云尼 ( Ewiniar ) 和 2024 年 11 月的台风银杏 ( Yinxing ) 。

△图 6：台风路径预测结果

结果显示，STCast 的 72 小时路径预报与观测路径的吻合度明显高于 ECMWF、FourCastNet、Pangu-Weather 和 FengWu。特别是在台风银杏的长期预测中，STCast 的平均误差仅为 96.5 公里，而次优的 Pangu-Weather 为 160 公里。

消融研究

团队进行了全面的消融研究来验证每个模块的有效性：

△表 2：消融研究结果

结果表明，移除任何组件都会导致区域和全球任务的性能下降。最显著的下降发生在移除全球 - 区域分布 ( 区域任务：10 天 RMSE 增加 0.22 ) 和月份嵌入 ( 全球任务：10 天 RMSE 增加 0.13 ) 时，这证实了每个组件在提升 STCast 整体有效性方面的关键作用。

结论

在这项工作中，团队在 Spatial-Aligned Attention 模块中引入了自适应注意力图，为区域预报提供动态边界条件。除了区域任务外，团队还将 Temporal Mixture-of-Experts 嵌入到时空预报框架 STCast 中，将天气预报视为一个多任务问题，并将月度子任务委托给专门的专家。

因此，STCast 同时解决了四个不同的挑战：低分辨率全球预报、高分辨率区域预报、极端事件评估和集合天气预报。实验和消融研究证实，STCast 在所有评估场景中都始终优于竞争方法。

论文链接：https://arxiv.org/pdf/2509.25210v3

代码仓库：https://github.com/chenhao-zju/STCast

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！

— 完 —

我们正在招聘一名眼疾手快、关注 AI 的学术编辑实习生

感兴趣的小伙伴欢迎关注了解详情

点亮星标

科技前沿进展每日见