美图公司联合开发首个类似MLP架构的视频学习模型MorphMLP，精度更高的同时计算量最高可节省50%

 收藏

关键词：联合开发

资讯来源：DeepTech深科技

发布时间： 2022-08-24

在机器学习领域，有着前向结构的多层感知器（Multilayer Perceptron，MLP）是近年来新兴的一种人工神经网络。简单来说，MLP 采用的是类似于人类神经系统的工作模式来进行学习和预测：在训练时，该结构会在学习之后通过权重来储存数据，再利用算法来将权重整理，从而减少整个过程的误差。尤其是在繁杂问题的处理上，MLP 的优势尤为明显。

由于这些优势，MLP 类似架构在图像识别领域取得了许多成功。尤其最近许多研究发现，此前在该领域以 ViT（Vision Transformer，视觉变压器）为首的基于注意力的架构并非必要，也可以被简单的 MLP 所取代。

在此之前，MLP 类似似架构的应用仍然局限于图像领域，该架构尽管在视频领域有着广泛的应用前景，但文献中此前尚未有这样的方法。这其中的原因之一主要有从空间角度和时间角度的两个原因。

从空间角度，此前的 MLP 类架构在对于细节的渐进式理解方面仍不甚理想。例如下图中，中间一行为著名的基于 MLP 的模型 ViP 的结果的可视化，可以看出它没有捕捉到许多关键细节。这是由于此前的模型大多是在全局上进行 MLP 操作，从而忽略的视觉表示的分层学习造成的。如何在每一帧中达到足够的语义理解水平，是亟待解决的难点之一。

▲图 | ViP 模型、MorphMLP 模型的第三层空间特征的可视化结果（来源：arXiv）

从时间的角度看，将 MLP 类似架构用于视频学习的另一个挑战在于如何学习众多的帧与帧之间相关性。目前一些视频学习的基于转换器模型使用自注意力的方法来解决这一难题，但是计算成本巨大。

不过就在最近，有研究人员开发出了名为 MorphMLP 的用于视频学习的模型，不仅可以有效地捕捉到视频中的核心语义，而且还比其他目前最先进的其他视频学习模型的计算成本更低且精度更高。而且，MorphMLP 模型也是首个采用 MLP 类似架构的用于视频学习的模型。

这一研究由美图公司、中国科学院深圳先进技术研究院深圳市机器视觉与模式识别重点实验室、新加坡国立大学共同完成。

近日，相关论文以《MorphMLP：一种用于时空表示学习的高效 MLP 类主干模型》（MorphMLP: An Efficient MLP-Like Backbone for Spatial-Temporal Representation Learning）的论文发表在 arXiv 上。

MorphMLP 模型由两个关键层组成：MorphFCs 和 MorphFCt，它们利用了用于在空间与时间建模的 FC（全连接，fully connected）操作。

其中，MorphFCs 可以有效地理解视频中每一帧的核心语义，有效解决了此前方法在空间角度的难点。具体来说，MorphFCs 分别沿高度和宽度两个维度将视觉标记的接受区域进行了扩展。通过采用这种渐进式地标记设计，MorphMLP 模型就可以通过由小到大的空间区域的 FC 操作，来进行分层令牌交互的学习，从而可以更好地发现判别性的细节。此外，这种方法由于采用了从小到大的令牌构建形式，可以将空间建模 FC 运算的计算量有效减小。

▲图 | MorphFCs 分别沿高度和宽度将视觉标记的接受区域进行了扩展（来源：arXiv）

此外，MorphFCt 则能以自适应的方式有效的理解相距很远的帧与帧之间的关系。由于该方法中没有通过自注意力的标记进行比较，而是把空间位置的特征与相同的时间块进行关联，FC 就可以高效地对每个时间块进行处理，并可以自适应地处理聚合块中的令牌关系，从而对帧与帧之间的相关性进行建模。

最终，该方法通过依次排列 MorphFCs 和 MorphFCt 来构建 MorphMLP 块，然后再将其堆叠到 Morph MLP 主干中做视频建模。

▲图 | 通过排列时间与空间的 MorphFCs 和 MorphFCt 构建了 MorphMLP 块（来源：arXiv）

▲图 | MorphMLP 架构（来源：arXiv）

这种架构的优势在于，可通过分层方式，提高 MorphFCs 和 MorphFCt 之间的相互配合能力，从而能够更好地学习视频中复杂的时空交互；另外，也可通过多尺度和多维度的分解，得到更高的准确性和效率。

为了验证 MorphMLP 模型的效果，研究人员将该模型在 Kinetics400 、ImageNet-1K 等数据库中进行了训练，并于其他目前最先进的视频学习模型进行对比。结果发现，MorphMLP 不仅可以大幅节省计算量，还可以实现更高的精度。

例如，与 VideoSwin-T 相比，MorphMLP-S 能以低于 50% 的计算量在 Kinetics400 数据库上实现 0.9% 的 top-1 精度改进。而 MorphMLP-B 则仅以 MViT-B 模型的 43% 的计算量，就在 SSV2 数据库上实现了 2.4% 的 top-1 精度的提升。

参考资料：

https://arxiv.org/abs/2111.12527
https://github.com/MTLab/MorphMLP