世界热资讯!美图联合开发类似MLP架构的视频学习模型,计算量最高可节省50%

来源:腾讯网 时间:2022-08-24 19:56:55

在机器学习领域,有着前向结构的多层感知器 (Multilayer Perceptron,MLP)是近年来新兴的一种人工神经网络。简单来说,MLP 采用的是类似于人类神经系统的工作模式来进行学习和预测:在训练时,该结构会在学习之后通过权重来储存数据,再利用算法来将权重整理,从而减少整个过程的误差。尤其是在繁杂问题的处理上,MLP 的优势尤为明显。


(资料图)

由于这些优势,MLP 类似架构在图像识别领域取得了许多成功。尤其最近许多研究发现,此前在该领域以 ViT(Vision Transformer,视觉变压器)为首的基于注意力的架构并非必要,也可以被简单的 MLP 所取代。

在此之前,MLP 类似似架构的应用仍然局限于图像领域,该架构尽管在视频领域有着广泛的应用前景,但文献中此前尚未有这样的方法。这其中的原因之一主要有从空间角度和时间角度的两个原因。

从空间角度,此前的 MLP 类架构在对于细节的渐进式理解方面仍不甚理想。例如下图中,中间一行为著名的基于 MLP 的模型 ViP 的结果的可视化,可以看出它没有捕捉到许多关键细节。这是由于此前的模型大多是在全局上进行 MLP 操作,从而忽略的视觉表示的分层学习造成的。如何在每一帧中达到足够的语义理解水平,是亟待解决的难点之一。

▲图 | ViP 模型、MorphMLP 模型的第三层空间特征的可视化结果(来源:arXiv)

从时间的角度看,将 MLP 类似架构用于视频学习的另一个挑战在于如何学习众多的帧与帧之间相关性。目前一些视频学习的基于转换器模型使用自注意力的方法来解决这一难题,但是计算成本巨大。

不过就在最近,有研究人员开发出了名为 MorphMLP 的用于视频学习的模型,不仅可以有效地捕捉到视频中的核心语义,而且还比其他目前最先进的其他视频学习模型的计算成本更低且精度更高。而且,MorphMLP 模型也是首个采用 MLP 类似架构的用于视频学习的模型。

这一研究由美图公司、中国科学院深圳先进技术研究院深圳市机器视觉与模式识别重点实验室、新加坡国立大学共同完成。

近日,相关论文以《MorphMLP:一种用于时空表示学习的高效 MLP 类主干模型》(MorphMLP: An Efficient MLP-Like Backbone for Spatial-Temporal Representation Learning) 的论文发表在 arXiv 上。

MorphMLP 模型由两个关键层组成:MorphFCs 和 MorphFCt,它们利用了用于在空间与时间建模的 FC(全连接,fully connected)操作。

其中,MorphFCs 可以有效地理解视频中每一帧的核心语义,有效解决了此前方法在空间角度的难点。具体来说,MorphFCs 分别沿高度和宽度两个维度将视觉标记的接受区域进行了扩展。通过采用这种渐进式地标记设计,MorphMLP 模型就可以通过由小到大的空间区域的 FC 操作,来进行分层令牌交互的学习,从而可以更好地发现判别性的细节。此外,这种方法由于采用了从小到大的令牌构建形式,可以将空间建模 FC 运算的计算量有效减小。

▲图 | MorphFCs 分别沿高度和宽度将视觉标记的接受区域进行了扩展(来源:arXiv)

此外,MorphFCt 则能以自适应的方式有效的理解相距很远的帧与帧之间的关系。由于该方法中没有通过自注意力的标记进行比较,而是把空间位置的特征与相同的时间块进行关联,FC 就可以高效地对每个时间块进行处理,并可以自适应地处理聚合块中的令牌关系,从而对帧与帧之间的相关性进行建模。

最终,该方法通过依次排列 MorphFCs 和 MorphFCt 来构建 MorphMLP 块,然后再将其堆叠到 Morph MLP 主干中做视频建模。

▲图 | 通过排列时间与空间的 MorphFCs 和 MorphFCt 构建了 MorphMLP 块(来源:arXiv)

▲图 | MorphMLP 架构(来源:arXiv)

这种架构的优势在于,可通过分层方式,提高 MorphFCs 和 MorphFCt 之间的相互配合能力,从而能够更好地学习视频中复杂的时空交互;另外,也可通过多尺度和多维度的分解,得到更高的准确性和效率。

为了验证 MorphMLP 模型的效果,研究人员将该模型在 Kinetics400 、ImageNet-1K 等数据库中进行了训练,并于其他目前最先进的视频学习模型进行对比。结果发现,MorphMLP 不仅可以大幅节省计算量,还可以实现更高的精度。

例如,与 VideoSwin-T 相比,MorphMLP-S 能以低于 50% 的计算量在 Kinetics400 数据库上实现 0.9% 的 top-1 精度改进。而 MorphMLP-B 则仅以 MViT-B 模型的 43% 的计算量,就在 SSV2 数据库上实现了 2.4% 的 top-1 精度的提升。

参考资料:

https://arxiv.org/abs/2111.12527

https://github.com/MTLab/MorphMLP

X 关闭

dnf在哪分解时装?dnf怎么分解时装划算?

dnf在哪分解时装?dnf时装分解位置及方法分解地点:西海岸的达芙妮。分解方法:1、装扮栏都被时装填满时,游戏会提醒大家物品栏空间不足。2

2023-06-26

暗黑3牧牛杖怎么做?暗黑破坏神3牧牛杖有什么用?

暗黑3牧牛杖怎么做?牧牛杖是暗黑3中一个很神器的装备,在2 0之前没有彩虹哥布林的情况,玩家想进入彩虹关只能依靠这个牧牛杖,但是现阶段进

2023-06-26

王者荣耀荣耀战令怎么获取?王者荣耀怎么赠送战令?

王者荣耀荣耀战令怎么获取?打开战令系统进入王者游戏首页后,在右侧列表打开战令。点击获取 购买在战令系统首页,点击上方的获取或购买。做

2023-06-26

魔兽世界t6哪里换?魔兽t6套装如何换?

魔兽世界t6哪里换?魔兽世界游戏中T6兑换的位置如下所示:1 游戏玩家进入游戏后,首先到达海加尔峰,然后找到中间的大圆台。2 游戏玩家找到后

2023-06-26

原神男角色颜值排名是什么?原神全角色身高排名是什么?

原神男角色颜值排名是什么?迪卢克作为一个内测角色,从游戏公测开始卢老爷就一直是最受欢迎的角色之一,一头红色的长发,一身黑色的衣服,

2023-06-26

前沿热点:山东南部49县(区市)出现降雨 鲁中、半岛局地仍有暴雨

齐鲁网·闪电新闻6月25日讯,25日,山东南部出现降雨,费县、滕州等地

2023-06-26

全球快讯:请牢记!自6月29日起,今年山东高考共有7次志愿填报时间

高考成绩公布后,对于考生最重要的事情就是志愿填报。首先要牢记志愿填

2023-06-26

山东今年高考分数线划定,30.8万余考生上了一段线

山东高考特招线520一段线4436月25日下午,省教育厅举行普通高考新闻发

2023-06-26

重磅!山东高考一分一段表来了|环球速看料

6月25日,山东省招考院发布山东2023高考成绩一分一段表。详情如下:来

2023-06-26

山东3市最新人事任免

潍坊市潍坊市人民代表大会常务委员会公告(第25号)昌乐县人民代表大会

2023-06-26

联系方式:291 32 36@qq.com

Copyright © 1998-2015 by 微圈汇游戏网版权 所有 京ICP备12018864号-8

营业执照公示信息