2025深度学习发论文&模型涨点之——时空特征融合
时空特征融合是一种将空间和时间维度的信息相结合的技术,旨在通过整合多维度数据来提高模型的性能和准确性。它通过有效的融合策略,能够显著减少模型训练的计算开销,同时提供更全面的数据洞察。
多尺度特征融合:一些研究提出在空间和时间维度上分别引入多尺度特征表示,以增强模型对复杂运动的表征能力。例如,在三维人体姿态估计中,通过空间多尺度特征融合模块和时序多尺度编码,显著降低了计算复杂度并提高了精度。
注意力机制的引入:注意力机制被广泛应用于时空特征融合中,以增强模型对重要特征的关注。例如,通过自注意力机制和多层感知机构建的特征融合模块,能够更有效地融合不同尺度的特征。
跨模态融合:一些研究通过跨模态特征融合,结合不同模态数据的互补优势,提升模型性能。例如,在行人行为预测中,通过混合特征融合策略和时空注意力机制,模型在多个性能指标上显著优于现有方法。
高效融合架构:例如,MFF-EINV2架构通过并行子网络和多尺度融合,大幅减少了模型参数数量,同时提高了性能。
小编整理了一些时空特征融合【论文】合集,以下放出部分,全部论文PDF版皆可领取。
需要的同学扫码添加我回复“ 时空特征融合”即可全部领取
论文精选论文1:Graph Dual-stream Convolutional Attention Fusion for Precipitation Nowcasting
用于降水临近预报的图双流卷积注意力融合方法方法
图降水图表示:将降水图表示为全连接图,其中节点代表区域,边代表区域之间的连接,每个节点存储历史观测数据。双流设计:提出了一种双流架构,分别处理空间和时间交互,通过不同的注意力机制捕捉其独特动态。门控融合模块:通过门控融合模块整合空间和时间流,利用空间和时间信息提高预测精度。深度可分离卷积:引入深度可分离卷积操作,优化局部特征提取,高效处理高维输入。损失函数:使用均方误差(MSE)作为损失函数,训练模型以最小化预测和真实降水图之间的误差。
创新点
双流设计:通过空间和时间流的独立处理,有效捕捉降水图的空间和时间动态,显著提高了降水临近预报的准确性。
高维数据处理:直接处理三维张量数据,避免了传统方法中需要重塑数据导致的信息丢失问题。深度可分离卷积:在处理高维输入时,减少了计算复杂度和参数数量,提高了模型的效率。注意力机制:引入空间和时间注意力机制,使模型能够动态分配权重,更好地捕捉区域之间的相关性。性能提升:在欧洲和欧亚地区的降水数据集上,模型的均方误差(MSE)显著低于其他基准模型,例如SmaAt-UNet和RainNet。
论文2:
Revisiting Skeleton-based Action Recognition重新审视基于骨架的动作识别方法
3D 热图体积:将2D骨架表示为热图堆叠,形成3D热图体积,作为输入数据。3D 卷积神经网络:使用3D-CNN处理3D热图体积,提取时空特征。多模态融合:将骨架信息与RGB图像等其他模态信息进行早期融合,提升识别性能。轻量化网络设计:采用轻量化的3D-CNN架构,减少计算复杂度和参数数量。
创新点
3D 热图体积:与基于图卷积网络(GCN)的方法相比,3D热图体积对骨架估计噪声更鲁棒,显著提高了动作识别的准确性。时空特征提取:3D-CNN能够更有效地学习时空特征,相比GCN方法在多个基准数据集上取得了更高的准确率。多模态融合:通过早期融合骨架和RGB图像,模型在多模态动作识别任务中达到了新的最先进水平。性能提升:在NTU RGB+D、FineGYM等数据集上,PoseConv3D的准确率比之前的最先进方法MS-G3D提升了超过1%,并且在Kinetics400等数据集上也取得了显著的性能提升。
论文3:
Spatio-Temporal Side Tuning Pre-trained Foundation Models for Video-based Pedestrian Attribute Recognition视频行人属性识别中的时空侧调优预训练基础模型
方法
视频-文本融合:将视频帧和属性集作为输入,将行人属性识别问题转化为视频-文本融合问题。
预训练模型CLIP:利用预训练的多模态基础模型CLIP提取视觉特征和文本特征。时空侧调优:提出时空侧调优策略,通过轻量级的外部网络对预训练模型进行参数高效优化。多模态交互学习:将视觉和文本特征送入融合Transformer,进行多模态交互学习,最后通过分类头进行属性预测。
创新点
视频-文本融合框架:首次从视频-文本融合的角度解决视频行人属性识别问题,为该领域提供了新的视角。时空侧调优策略:通过时空侧网络对预训练模型进行调优,显著减少了GPU内存消耗和参数调整数量,同时提高了模型的推理速度。性能提升:在MARS-Attribute和DukeMTMC-VID-Attribute两个大规模视频行人属性识别数据集上,模型的准确率和F1分数分别比之前的最先进方法提高了超过1%和2%。参数高效:与现有的参数高效微调方法(如LoRA、Adapter等)相比,时空侧调优策略在保持高性能的同时,显著降低了模型的参数量和计算成本。
论文4:
Understanding the Robustness of 3D Object Detection with Bird's-Eye-View Representations in Autonomous Driving自动驾驶中基于鸟瞰图表示的3D目标检测的鲁棒性研究方法
自然鲁棒性评估:在常见干扰(如噪声、模糊和数字失真)、不同天气和光照条件(如白天、夜晚、晴天、雨天)以及部分摄像头缺失的情况下评估模型的自然鲁棒性。
对抗鲁棒性评估:采用全局ℓp对抗性扰动、实例级和类别级对抗性贴片攻击,评估模型在对抗性噪声下的鲁棒性。3D一致贴片攻击:提出一种新的攻击方法,通过在3D空间中粘贴对抗性贴片,确保贴片在多视角和时间序列中的空间和时间一致性。多模态融合模型评估:评估相机-激光雷达融合模型在不同设置下的性能,分析其在对抗性噪声下的鲁棒性。
创新点
3D一致贴片攻击:提出了3D一致贴片攻击方法,通过在3D空间中粘贴对抗性贴片并投影到2D图像上,确保贴片在多视角和时间序列中的空间和时间一致性。这种方法更符合自动驾驶场景的实际需求,能够更真实地模拟对抗性攻击(如在多视角重叠区域和连续帧中生成一致的对抗性贴片)。鲁棒性评估框架:系统地评估了基于鸟瞰图(BEV)的3D目标检测模型在自然干扰和对抗性攻击下的鲁棒性,揭示了BEV模型在不同条件下的行为特性。例如,BEV模型在自然干扰下表现出更好的稳定性,但在对抗性噪声下更脆弱,主要由于BEV特征的冗余性导致(如在对抗性攻击下,BEV特征图中无目标区域的激活增加,产生大量误检)。多模态融合模型的优势:通过实验验证了相机-激光雷达融合模型在不同设置下的优越性能,尤其是在对抗性噪声下的鲁棒性。例如,BEVFusion在仅图像扰动时比TransFusion更脆弱,但在同时对点云和图像施加扰动时,BEVFusion的鲁棒性更差,这表明其对视觉输入的依赖性更高。性能提升与模型改进:通过对比不同模型的自然鲁棒性和对抗鲁棒性,为自动驾驶中的3D目标检测模型设计提供了新的见解。例如,BEVFormer在类别特定贴片攻击和时间通用贴片攻击中表现出更好的鲁棒性,这可能归因于其对历史BEV特征的利用,从而提高了对通用对抗性噪声的鲁棒性。
小编整理了时空特征融合论文代码合集需要的同学扫码添加我回复“ 时空特征融合”即可全部领取
时空特征融合是一种将空间和时间维度的信息相结合的技术,旨在通过整合多维度数据来提高模型的性能和准确性。它通过有效的融合策略,能够显著减少模型训练的计算开销,同时提供更全面的数据洞察。
多尺度特征融合:一些研究提出在空间和时间维度上分别引入多尺度特征表示,以增强模型对复杂运动的表征能力。例如,在三维人体姿态估计中,通过空间多尺度特征融合模块和时序多尺度编码,显著降低了计算复杂度并提高了精度。
注意力机制的引入:注意力机制被广泛应用于时空特征融合中,以增强模型对重要特征的关注。例如,通过自注意力机制和多层感知机构建的特征融合模块,能够更有效地融合不同尺度的特征。
跨模态融合:一些研究通过跨模态特征融合,结合不同模态数据的互补优势,提升模型性能。例如,在行人行为预测中,通过混合特征融合策略和时空注意力机制,模型在多个性能指标上显著优于现有方法。
高效融合架构:例如,MFF-EINV2架构通过并行子网络和多尺度融合,大幅减少了模型参数数量,同时提高了性能。
小编整理了一些时空特征融合【论文】合集,以下放出部分,全部论文PDF版皆可领取。
需要的同学扫码添加我回复“ 时空特征融合”即可全部领取
论文精选论文1:Graph Dual-stream Convolutional Attention Fusion for Precipitation Nowcasting
用于降水临近预报的图双流卷积注意力融合方法方法
图降水图表示:将降水图表示为全连接图,其中节点代表区域,边代表区域之间的连接,每个节点存储历史观测数据。双流设计:提出了一种双流架构,分别处理空间和时间交互,通过不同的注意力机制捕捉其独特动态。门控融合模块:通过门控融合模块整合空间和时间流,利用空间和时间信息提高预测精度。深度可分离卷积:引入深度可分离卷积操作,优化局部特征提取,高效处理高维输入。损失函数:使用均方误差(MSE)作为损失函数,训练模型以最小化预测和真实降水图之间的误差。

创新点
双流设计:通过空间和时间流的独立处理,有效捕捉降水图的空间和时间动态,显著提高了降水临近预报的准确性。
高维数据处理:直接处理三维张量数据,避免了传统方法中需要重塑数据导致的信息丢失问题。深度可分离卷积:在处理高维输入时,减少了计算复杂度和参数数量,提高了模型的效率。注意力机制:引入空间和时间注意力机制,使模型能够动态分配权重,更好地捕捉区域之间的相关性。性能提升:在欧洲和欧亚地区的降水数据集上,模型的均方误差(MSE)显著低于其他基准模型,例如SmaAt-UNet和RainNet。

论文2:
Revisiting Skeleton-based Action Recognition重新审视基于骨架的动作识别方法
3D 热图体积:将2D骨架表示为热图堆叠,形成3D热图体积,作为输入数据。3D 卷积神经网络:使用3D-CNN处理3D热图体积,提取时空特征。多模态融合:将骨架信息与RGB图像等其他模态信息进行早期融合,提升识别性能。轻量化网络设计:采用轻量化的3D-CNN架构,减少计算复杂度和参数数量。

创新点
3D 热图体积:与基于图卷积网络(GCN)的方法相比,3D热图体积对骨架估计噪声更鲁棒,显著提高了动作识别的准确性。时空特征提取:3D-CNN能够更有效地学习时空特征,相比GCN方法在多个基准数据集上取得了更高的准确率。多模态融合:通过早期融合骨架和RGB图像,模型在多模态动作识别任务中达到了新的最先进水平。性能提升:在NTU RGB+D、FineGYM等数据集上,PoseConv3D的准确率比之前的最先进方法MS-G3D提升了超过1%,并且在Kinetics400等数据集上也取得了显著的性能提升。

论文3:
Spatio-Temporal Side Tuning Pre-trained Foundation Models for Video-based Pedestrian Attribute Recognition视频行人属性识别中的时空侧调优预训练基础模型
方法
视频-文本融合:将视频帧和属性集作为输入,将行人属性识别问题转化为视频-文本融合问题。
预训练模型CLIP:利用预训练的多模态基础模型CLIP提取视觉特征和文本特征。时空侧调优:提出时空侧调优策略,通过轻量级的外部网络对预训练模型进行参数高效优化。多模态交互学习:将视觉和文本特征送入融合Transformer,进行多模态交互学习,最后通过分类头进行属性预测。

创新点
视频-文本融合框架:首次从视频-文本融合的角度解决视频行人属性识别问题,为该领域提供了新的视角。时空侧调优策略:通过时空侧网络对预训练模型进行调优,显著减少了GPU内存消耗和参数调整数量,同时提高了模型的推理速度。性能提升:在MARS-Attribute和DukeMTMC-VID-Attribute两个大规模视频行人属性识别数据集上,模型的准确率和F1分数分别比之前的最先进方法提高了超过1%和2%。参数高效:与现有的参数高效微调方法(如LoRA、Adapter等)相比,时空侧调优策略在保持高性能的同时,显著降低了模型的参数量和计算成本。

论文4:
Understanding the Robustness of 3D Object Detection with Bird's-Eye-View Representations in Autonomous Driving自动驾驶中基于鸟瞰图表示的3D目标检测的鲁棒性研究方法
自然鲁棒性评估:在常见干扰(如噪声、模糊和数字失真)、不同天气和光照条件(如白天、夜晚、晴天、雨天)以及部分摄像头缺失的情况下评估模型的自然鲁棒性。
对抗鲁棒性评估:采用全局ℓp对抗性扰动、实例级和类别级对抗性贴片攻击,评估模型在对抗性噪声下的鲁棒性。3D一致贴片攻击:提出一种新的攻击方法,通过在3D空间中粘贴对抗性贴片,确保贴片在多视角和时间序列中的空间和时间一致性。多模态融合模型评估:评估相机-激光雷达融合模型在不同设置下的性能,分析其在对抗性噪声下的鲁棒性。

创新点
3D一致贴片攻击:提出了3D一致贴片攻击方法,通过在3D空间中粘贴对抗性贴片并投影到2D图像上,确保贴片在多视角和时间序列中的空间和时间一致性。这种方法更符合自动驾驶场景的实际需求,能够更真实地模拟对抗性攻击(如在多视角重叠区域和连续帧中生成一致的对抗性贴片)。鲁棒性评估框架:系统地评估了基于鸟瞰图(BEV)的3D目标检测模型在自然干扰和对抗性攻击下的鲁棒性,揭示了BEV模型在不同条件下的行为特性。例如,BEV模型在自然干扰下表现出更好的稳定性,但在对抗性噪声下更脆弱,主要由于BEV特征的冗余性导致(如在对抗性攻击下,BEV特征图中无目标区域的激活增加,产生大量误检)。多模态融合模型的优势:通过实验验证了相机-激光雷达融合模型在不同设置下的优越性能,尤其是在对抗性噪声下的鲁棒性。例如,BEVFusion在仅图像扰动时比TransFusion更脆弱,但在同时对点云和图像施加扰动时,BEVFusion的鲁棒性更差,这表明其对视觉输入的依赖性更高。性能提升与模型改进:通过对比不同模型的自然鲁棒性和对抗鲁棒性,为自动驾驶中的3D目标检测模型设计提供了新的见解。例如,BEVFormer在类别特定贴片攻击和时间通用贴片攻击中表现出更好的鲁棒性,这可能归因于其对历史BEV特征的利用,从而提高了对通用对抗性噪声的鲁棒性。

小编整理了时空特征融合论文代码合集需要的同学扫码添加我回复“ 时空特征融合”即可全部领取