Loading... # A Spatio-Temporal Fusion Deep Learning Network with Application to Lightning Nowcasting 论文笔记 ## introduction 这一节首先介绍了一下雷电的形成原因及其危害;然后作者大致介绍了传统的雷电预测方法,并指出了其无法解决非线性问题和分辨率问题;接着作者引出了基于深度学习的预测方法,并指出全球天气预报方法无法平衡精度和性能,且较难预测时空尺度较小的雷电事件,并由此引出近些年来基于RNN网络的雷电预警系统:ConvLSTM、GRU、LightNet和MCGLN等方法,并介绍了他们在多模态数据融合、时序预测和多尺度特征提取上的贡献和成就;最后作者基于上述方法介绍了自己的模型:基于三维Unet结构,采用多分支+主干道的方式进行特征融合,并通过空间注意力模块自主识别和增强雷电特征。 ## Materials and Methods ### Study Area 这部分主要介绍了数据集的来源。数据集来自中国中部地区,是一个间隔6分钟的时序序列信息,每个图片是一个覆盖232km、 分辨率为0.01° x 0.01°的640 x 680的浮点数矩阵。 ### Data #### Radar Data 这部分讲了雷达信息的来源和数据预处理方式。雷达信息来自中国气象网,选取了18-19年5-8月的反射率图像产品数据。 数据清洗方式: - 移除标注信息,并修补裂缝 - 保存反射率$\geq$30的反射值,并提供色标 清洗后的数据信息: - 分辨率:0.01° x 0.01° - 尺寸:480 x 480 - 图像数目:59040 #### Lightning Data 这部分讲了雷电数据的处理和清理方式。雷电数据来自国家雷电监测网。其所提供的原始数据为文本数据(一维),需要将其转换为二维的图像数据,并沿时间线堆叠得到三维张量。 在标记图像时,作者没有区分云间闪电和云地闪电,考虑到他们的强耦合性,作者采用了统一标记的方法。 此外,由于预测的是0-1h的雷电发生情况,因此如果通过$t$时刻前的数据预测$t\sim t+1$时刻的雷电,倘若$t\sim t+1$时刻某像素位置发生雷电,则标记为1。 ### Methodology 这节作者介绍了Unet网络对于多尺度特征的保存能力的特点,并先总结了一下自己的网络的创新点和优势: - 编码器采用多分支与主路径结构 - 每个分支和主路径均配备SA模块 - 采用融合模块整合特征 #### Overall Architecture of Spatio-temporal Fusion Network for Lightning Nowcasting 这部分是对于整体模型结构的介绍。 <img src="https://y0k1n0-1323330522.cos.ap-beijing.myqcloud.com/image-20251125155132613.png" alt="image-20251125155132613" style="zoom:67%;" style=""> - 模型的输入为$X\in \mathbb{R}^{C\times H\times W\times D}$ - 图像的像素通道为$H\times W$,表示图像的长宽 - 图像的通道数为$C$ - $D$为时间序列维度 - Unet的encoder采用多分支输入,多个分支通过SA和fusion进行多尺度特征提取和融合。 - Unet的decoder采用上采样恢复特征,并通过Unet的shortcut和Encoder特征连接 - 模型的输出为$O_f\in \mathbb{R}^{N_c\times H\times W}$,其中$N_c$为标签类别数量,$N_c=0$表示没有雷电事件,$N_c=1$表示发生雷电事件 #### Spatial Attention 这部分介绍了SA模型的构造方式。SA模块的作用是为输入特征图的每个网格位置分配一个权重,以此来让模型更多的关注雷电发生的区域。  $$ O_l = \sigma\bigl(\text{Conv}(\text{ReLU}(\text{Conv}(X_l)))\bigr) \circ X_l $$ 其中SA模块的输入和输出均为$X\in\mathbb{R}^{F_l \times H_l \times w_l \times D_l}$,模型经过sigmod的输出是一个权重参数,通过和原始输入的逐元素乘积来让模型去关注雷电区域。 #### Fusion Method 这部分详细讲述了加权融合(WF)和注意力门控融合(AGF)两种不同融合方式。这两种融合方式都是先合并两个分支的特征图,然后将当前层的融合输出和主路径的前一层的空间注意力输出进行融合。 首先先看加权融合: <img src="https://y0k1n0-1323330522.cos.ap-beijing.myqcloud.com/image-20251125164050643.png" alt="image-20251125164050643" style="zoom:50%;" style=""> - 第一步: - $$ O_l^{\,Z} = w_l^{\,r} O_l^{\,r} + w_l^{\,o} O_l^{\,o} $$ - 其中: - $O_l^r$:代表雷达反射图的特征图 - $O_l^o$:代表雷电发生图的特征图 - $w_l^r$,$w_l^o \in \mathbb{R}$:代表第$l$层的标量权重 - 第二步: - $$ Z_{l} = w_{l} O_{l}^Z + w_{l}^Z Z_{l-1} $$ - 其中: - $Z_{l-1}$:上一层的融合特征 - $w_l$,$w_l^Z$:第$l$层的标量权重 然后看注意力门控融合: <img src="https://y0k1n0-1323330522.cos.ap-beijing.myqcloud.com/image-20251125165940792.png" alt="image-20251125165940792" style="zoom:67%;" style=""> - 第一步: - $$ O_l^{\,Z} = w_l^{\,r} O_l^{\,r} + w_l^{\,o} O_l^{\,o} $$ - 其中: - $O_l^r$:代表雷达反射图的特征图 - $O_l^o$:代表雷电发生图的特征图 - $w_l^r$,$w_l^o \in \mathbb{R}$:代表第$l$层的标量权重 - 第二步: - $$ Z_{l} = \sigma\!\left( \mathrm{Conv}\!\left( \mathrm{ReLU}\!\left( \mathrm{Conv}(O_{l}^{Z}) + \mathrm{Conv}(Z_{l-1}) \right)\right)\right) \circ O_{l}^{Z} $$ - 其中: - $Z_{l-1}$:代表上一层的融合特征 - $O_l^Z$:代表第一步得到的多分支融合特征 #### Dataset 这部分作者讲了输入数据和网络中的数据维度。 本模型是采用前30分钟的数据去预测后一个小时的雷电情况,因此输入的数据为$(C=3, W = 480, H = 480, D = 5)$。在Unet模型中,各层的特征图尺度如下图所示: <img src="https://y0k1n0-1323330522.cos.ap-beijing.myqcloud.com/image-20251125172231146.png" alt="image-20251125172231146" style="zoom:67%;" style=""> 在数据集划分方面,为了数据的有效性,剔除了雷电发生数小于30的数据样本。数据集的大小为1641。整体数据以接近训练集:验证集:测试集=5.6:1:1.4的比例划分。 #### Model Training, Validation, and Testing 这部分主要讲了损失函数和训练时候的一些小trick。 损失函数是基于交叉熵损失的改进,考虑到雷电数据的稀缺性,作者采用带权重的损失函数,让模型更多的关注雷电区域。 $$ \begin{align} \text{loss}_w &= \frac{1}{N} \sum_{i=1}^{N} \sum_{c=0}^{1} w_i^c\, y_i^c \log\left(p_i^c\right)\\ w_c &= (2 f_c)^{-1} \end{align} $$ 训练trick: - 采用Adam优化器,初始学习率$10^{-3}$ - batch_size设置为2 - 早停机制:连续三个epoch如果loss不下降,学习率减半;连续6个epoch如果loss不下降,停止训练 #### Evaluation 这部分简单介绍了一下评估指标,同样也是POD,FAR,TS,ETS这几个指标。作者通过设计阈值将预测的数值转换为确定性的预报;同时作者将TP指标的计算放宽:只要预测值附近1个单位即可。 ## Results 本节作者展示了实验结果,并做了一些消融实验验证了结果的正确性。 - 作者对比了Light3DUnet与本文提出的ST-WF-LightNet和ST-AGF-LightNet之间的差异。 - 同时,为了验证SA模块的有效性,作者还对比了NOSA-AGF-LightNet和SA-AGF-LightNet之间的差异 ### Network Model Analysis 本节通过对实验结果的比较验证了作者提出的方案的可能性,同时也验证了SA模块的有效性。 通过对比可以看到,即使是没有SA模块的AGF-LightNet,由于存在多数据融合,其预测效果也要优于单数据流的Light3DUnet 再通过对比有无SA模型,可以看到SA模型在注意力关注上起到了很大的作用,让模型具备了更好的微尺度特征观测能力和时序信息的预测能力。 ### Visualization Analysis of Network 本节通过对训练过程中不同epoch的可视化,展示了两个网络的学习能力和细粒度特征的聚焦能力。 ### Nowcast Performance 作者画出了三个模型对应的ROC曲线,并根据AUC,采用约登指数计算了最优阈值,并以此计算了POD, FAR, TS和ETS四个指标。 然后作者探究了三个模型最优阈值不同的深层原因,通过对概率大于50%的点的直方图均衡化,作者发现基于AGF的模型高概率分布更多,因此找到了其最优阈值较大的原因。 这种数据驱动的阈值选择方法更符合工程思维,我觉得挺好的。 ### Visualization Results 作者这里把TP、FP和FN指标进行可视化。从图上可以很好的看到预测性能。雷电发生的边缘得到了很好的刻画,此外对于微尺度的单独雷电也可以得到预测 ## 总结和反思 - 看了三篇文献了,基本都是基于Unet去做的。看起来Unet网络没有时序预测的能力,但是可以把它作为一个判别器,用于预测接下来的某一个时间的雷电发生。这种利用Unet网络做多数据流输入的,现有的方式都是做数据的直接堆叠,或者分支输入最后在聚合。为啥不用cross attention之类的作为条件信息注入网络呢? - 这篇文章作者提出来的SA模型的意图是很好的,但是在没有对应的损失项的前提下,是怎么做到让SA模型学习到对应的注意力权重的呢? 最后修改:2025 年 11 月 30 日 © 允许规范转载 赞 如果觉得我的文章对你有用,请随意赞赏