MPEG Immersive Video (MIV) 简介
MIV 是 Moving Picture Experts Group (MPEG) 出品的一种3D视频格式,其原理是用多视角下的色彩图(texture)和深度图(geometry)表示场景,从而将3D内容映射为2D内容并使用传统2D视频编码器进行编码。 此类技术又称 Multi-view Video 。
👇一段介绍,来自 C. Zhu, G. Lu, B. He, R. Xie and L. Song, “Implicit-Explicit Integrated Representations for Multi-View Video Compression,” in IEEE Transactions on Image Processing, vol. 34, pp. 1106-1118, 2025
Over the past decade, the Moving Picture Experts Group (MPEG) has been committed to the development of multi-view video coding standards. Popular coding standards, such as 3D-HEVC [1] and MIV [2], rely on disparity to eliminate inter-view redundancy.
[1] G. Tech, Y. Chen, K. Müller, J.-R. Ohm, A. Vetro, and Y.-K. Wang, “Overview of the multiview and 3D extensions of high efficiency video coding,” IEEE Trans. Circuits Syst. Video Technol., vol. 26, no. 1, pp. 35–49, Jan. 2016.
[2] J. M. Boyce, “MPEG immersive video coding standard,” Proc. IEEE, vol. 109, no. 9, pp. 1521–1536, Sep. 2021.
# MIV 的前身:Video-based Point Cloud Compression (V-PCC)
MIV 的前身是 V-PCC,二者技术一脉相承,但彼时的 V-PCC 还只能做到对 3D Object 编码,而 MIV 现在已经可以处理各种复杂大场景。
V-PCC 的核心思想类似物体三视图,其将3D物体(点云)在不同视角的多个平面上投影,并分解为一大堆补丁,放入2D视频帧中用2D视频编码器进行编码:
在每个平面上,V-PCC先根据法线对物体表明进行切割,将深度相近的点分到一块补丁,然后用一个合并算法将小块合并为大块:
最后,对于每块补丁,分别存储其中的每个点的颜色(Attribute)和相对于选定平面的深度(Geometry),放入2D图像上,并用一张 Occupancy map 指示哪块是有用的数据:
# 从 V-PCC 到 MIV
V-PCC 本质上还是一种点云编码器,它并不关心点云从何而来,只是对交给它的点云数据进行压缩。 而 MIV 的输入数据是多个视角下拍摄的视频,这也是它又被称为 Multi-view Video 的原因。
如图所示,MIV的核心思想是寻找多个视角下视频帧之间的相似区域,以一个视角的视频为基准,剔除其他视角视频帧中的冗余区域,并将剩下的区域切出来作为补丁 (Atlas) 拼成新的视频帧进行编码:
其直接在2D视频上进行操作,无所谓视频帧是颜色还是深度,深度图可以看作是视频帧的一个额外色彩通道进行编码。
视频解码出来就是多个视角的颜色+深度图,拼起来就相当于一个点云,其渲染过程称为 Depth-image-based rendering (DIBR)。
# MIV 的缺陷
MIV 的质量主要依赖于高精度的相机位姿和深度图,在 3D Fundation Model 满天飞的当下已经不是问题。
MIV 的算法复杂,编码速度比较慢。
👇一段缺陷介绍,来自 C. Zhu, G. Lu, B. He, R. Xie and L. Song, “Implicit-Explicit Integrated Representations for Multi-View Video Compression,” in IEEE Transactions on Image Processing, vol. 34, pp. 1106-1118, 2025
However, these methods require high-precision depth maps and camera calibration parameters, and the corresponding hand-crafted modules are computationally complex, leading to poor coding efficiency.
MIV 基于深度的表示方法本质上还是点云,没法表示复杂的光照信息,比如半透明物体(半透明玻璃和其后物体有两个深度,没法用一张深度图表示)和反光(同一个点从不同方向看颜色不一样)。