Yin的笔记本

vuePress-theme-reco Howard Yin    2021 - 2025
Yin的笔记本 Yin的笔记本

Choose mode

  • dark
  • auto
  • light
Home
Category
  • CNCF
  • Docker
  • namespaces
  • Kubernetes
  • Kubernetes对象
  • Linux
  • MyIdeas
  • Revolution
  • WebRTC
  • 云计算
  • 人工智能
  • 分布式
  • 图像处理
  • 图形学
  • 微服务
  • 数学
  • OJ笔记
  • 博弈论
  • 形式语言与自动机
  • 数据库
  • 服务器运维
  • 编程语言
  • C
  • Git
  • Go
  • Java
  • JavaScript
  • Python
  • Nvidia
  • Shell
  • Tex
  • Rust
  • Vue
  • 视频编解码
  • 计算机网络
  • SDN
  • 论文笔记
  • 讨论
  • 边缘计算
  • 量子信息技术
Tag
TimeLine
About
查看源码
author-avatar

Howard Yin

304

Article

153

Tag

Home
Category
  • CNCF
  • Docker
  • namespaces
  • Kubernetes
  • Kubernetes对象
  • Linux
  • MyIdeas
  • Revolution
  • WebRTC
  • 云计算
  • 人工智能
  • 分布式
  • 图像处理
  • 图形学
  • 微服务
  • 数学
  • OJ笔记
  • 博弈论
  • 形式语言与自动机
  • 数据库
  • 服务器运维
  • 编程语言
  • C
  • Git
  • Go
  • Java
  • JavaScript
  • Python
  • Nvidia
  • Shell
  • Tex
  • Rust
  • Vue
  • 视频编解码
  • 计算机网络
  • SDN
  • 论文笔记
  • 讨论
  • 边缘计算
  • 量子信息技术
Tag
TimeLine
About
查看源码
  • MPEG Immersive Video (MIV) 简介

    • MIV 的前身:Video-based Point Cloud Compression (V-PCC)
      • 从 V-PCC 到 MIV
        • MIV 的缺陷

        MPEG Immersive Video (MIV) 简介

        vuePress-theme-reco Howard Yin    2021 - 2025

        MPEG Immersive Video (MIV) 简介


        Howard Yin 2025-06-30 08:11:01 视频编解码图形学

        MIV 是 Moving Picture Experts Group (MPEG) 出品的一种3D视频格式,其原理是用多视角下的色彩图(texture)和深度图(geometry)表示场景,从而将3D内容映射为2D内容并使用传统2D视频编码器进行编码。 此类技术又称 Multi-view Video 。

        👇一段介绍,来自 C. Zhu, G. Lu, B. He, R. Xie and L. Song, “Implicit-Explicit Integrated Representations for Multi-View Video Compression,” in IEEE Transactions on Image Processing, vol. 34, pp. 1106-1118, 2025

        Over the past decade, the Moving Picture Experts Group (MPEG) has been committed to the development of multi-view video coding standards. Popular coding standards, such as 3D-HEVC [1] and MIV [2], rely on disparity to eliminate inter-view redundancy.

        [1] G. Tech, Y. Chen, K. Müller, J.-R. Ohm, A. Vetro, and Y.-K. Wang, “Overview of the multiview and 3D extensions of high efficiency video coding,” IEEE Trans. Circuits Syst. Video Technol., vol. 26, no. 1, pp. 35–49, Jan. 2016.

        [2] J. M. Boyce, “MPEG immersive video coding standard,” Proc. IEEE, vol. 109, no. 9, pp. 1521–1536, Sep. 2021.

        # MIV 的前身:Video-based Point Cloud Compression (V-PCC)

        MIV 的前身是 V-PCC,二者技术一脉相承,但彼时的 V-PCC 还只能做到对 3D Object 编码,而 MIV 现在已经可以处理各种复杂大场景。

        V-PCC 的核心思想类似物体三视图,其将3D物体(点云)在不同视角的多个平面上投影,并分解为一大堆补丁,放入2D视频帧中用2D视频编码器进行编码:

        在每个平面上,V-PCC先根据法线对物体表明进行切割,将深度相近的点分到一块补丁,然后用一个合并算法将小块合并为大块:

        最后,对于每块补丁,分别存储其中的每个点的颜色(Attribute)和相对于选定平面的深度(Geometry),放入2D图像上,并用一张 Occupancy map 指示哪块是有用的数据:

        # 从 V-PCC 到 MIV

        V-PCC 本质上还是一种点云编码器,它并不关心点云从何而来,只是对交给它的点云数据进行压缩。 而 MIV 的输入数据是多个视角下拍摄的视频,这也是它又被称为 Multi-view Video 的原因。

        如图所示,MIV的核心思想是寻找多个视角下视频帧之间的相似区域,以一个视角的视频为基准,剔除其他视角视频帧中的冗余区域,并将剩下的区域切出来作为补丁 (Atlas) 拼成新的视频帧进行编码:

        其直接在2D视频上进行操作,无所谓视频帧是颜色还是深度,深度图可以看作是视频帧的一个额外色彩通道进行编码。

        视频解码出来就是多个视角的颜色+深度图,拼起来就相当于一个点云,其渲染过程称为 Depth-image-based rendering (DIBR)。

        # MIV 的缺陷

        MIV 的质量主要依赖于高精度的相机位姿和深度图,在 3D Fundation Model 满天飞的当下已经不是问题。

        MIV 的算法复杂,编码速度比较慢。

        👇一段缺陷介绍,来自 C. Zhu, G. Lu, B. He, R. Xie and L. Song, “Implicit-Explicit Integrated Representations for Multi-View Video Compression,” in IEEE Transactions on Image Processing, vol. 34, pp. 1106-1118, 2025

        However, these methods require high-precision depth maps and camera calibration parameters, and the corresponding hand-crafted modules are computationally complex, leading to poor coding efficiency.

        MIV 基于深度的表示方法本质上还是点云,没法表示复杂的光照信息,比如半透明物体(半透明玻璃和其后物体有两个深度,没法用一张深度图表示)和反光(同一个点从不同方向看颜色不一样)。

        帮助我们改善此页面!
        创建于: 2025-06-30 07:16:21

        更新于: 2025-06-30 08:11:12