首页| 行业资讯| 企业名录| 周边产品| 数字城市| 增强现实| 工业仿真| 解决方案| 虚拟医疗| 行业仿真| 图形处理| 军事战场
用户登录/注册 ×
资讯首页
行业资讯 >> 业内动态
虚拟现实、增强现实关键技术发展趋势
时间:2019-10-29    评论:0
    来源:中国信息通信研究院 
        华为技术有限公司 
        京东方科技集团股份有限公司

    声明:本白皮书版权属于中国信息通信研究院,并受法律保护。 转载、摘编或利用其它方式使用本白皮书文字或者观点的, 应注明“来源:中国信息通信研究院”。违反上述声明者,本 院将追究其相关法律责任。

(一)现阶段技术发展进程处于部分沉浸期

    业界对虚拟现实的界定认知由特定终端设备向联通端管云产业链条的沉浸体验演变。参考国际上自动驾驶汽车智能化程度分级以及对《虚拟(增强)现实白皮书(2017 年)》中分级标准修订增补,将虚拟现实技术发展划分为如下五个阶段,不同发展阶段对应相应体验层次,目前处于部分沉浸期,主要表现为 1.5K-2K 单眼分辨率、100-120 度视场角、百兆码率、20 毫秒 MTP 时延、4K/90 帧率渲染处理能力、由内向外的追踪定位与沉浸声等技术指标。

虚拟现实沉浸体验阶梯

虚拟现实沉浸体验分级

(二)近眼显示:变焦显示与光波导成为热点,显示计算化初见端倪

    相比虚拟现实技术体系中的其他领域,近眼显示技术轨道呈现螺旋上升的发展态势,即近眼显示关键体验指标间的权衡取舍与 VR/AR的差异化功能定位成为推动各类近眼显示技术演进突破的主要动因。

    其中,高角分辨率、广视场角、可变焦显示成为核心发展方向,VR 近眼显示技术侧重提高视觉沉浸体验的发展路线,AR 侧重低功耗、全天可佩戴、外观轻便的近眼显示发展路线。借鉴 Gartner 技术成熟度曲线呈现形式,分析总结如下各类近眼显示技术产业化进程。

虚拟现实近眼显示技术产业化进程

    高性能 LCD 与 OLED 技术保持虚拟现实近眼显示主导地位,可变焦显示与光波导有望在五年左右成为主流。其中,快速响应液晶、AMOLED 与 OLEDoS 技术均为成熟的可量产屏幕技术,近年内依然是虚拟现实的主流显示器件,由于虚拟现实市场自身尚需培养发展,因此以上技术处于稳步爬升光明期;光波导(Optical waveguide)在 AR 领域的技术发展前景明确,由于 AR 比之 VR 处于更为早期市场发展阶段,且预计在中近期难以大规模普及。光波导技术中各类技术路线间存在明显的优势和短板,目前尚未确立主导地位技术方案。

    此外,由于受到基础物理定律的限制,光波导要实现重大技术突破将面临巨大的研发困难,相关产品难以单独作为完整终端产品,须配套技术和零部件才可能产出被市场认可的 AR 终端,而有关配套技术和零部件尚有相当比例需要进一步完善,因此高性能光波导从科技诞生触发期发展至主流采用所需年限约为 5-10 年;多焦面显示技术(Multi-focal)以 Magic Leap One 为代表,根据虚拟物体在虚拟空间中的远近位置,将其对应投影至两个及以上焦平面。由于该技术存在无法实现连续焦距变化,实现所需光学系统复杂,光学系统复杂程度且制造成本随焦面数量增加而成指数级增加等诸多不足,相比起其他可连续变焦或光场显示技术,具备一定过渡性质,预判多焦面显示技术可能在达到高原期前即会过时;可变焦显示器技术(Varifocal)以 Oculus Half Dome原型机为代表,采用机械装置前后移动屏幕的位置来实现图像的焦距变化,配合眼动追踪、注视点渲染等多种软硬件技术,模拟出人眼在观察远近不同物体时发生的屈光调节和双目辐辏调节过程。

虚拟现实近眼显示技术路标

    可变焦显示器大量采用已成熟的技术作为实现基础,兼顾技术实现性和量产可行性,将成为下一代高端 VR 终端标配近眼显示技术,预计 2-5 年内成为主流;焦面显示器技术(Focal Surface)使用光相位调制器 SLM 把图像深度信息添加到普通 2D 屏幕画面中,让其在观察方向上模拟出图像的远近深度信息,可作为近似的光场显示技术,目前 Oculus 将其定义为下二代 VR 显示的重要发展方向,目前该技术存在结构复杂,所需 SLM 价格昂贵,图像分辨率、显示视场偏小等技术瓶颈有待攻克,预计 5-10 年内有望成为主流;当前多种光场显示(Light Field)技术方案停留在实验室阶段,其技术路径和配套设备存在大量研发瓶颈,中近期均无法量产普及。由于光场显示技术可以完全契合自然情况下人眼观察外界的原理,成为近眼显示领域追求的终极显示技术,预计十年以上才可能发展至主流采用。

    综上,现阶段 VR 和 AR 终端形态的差异致使未来的相当长时间内近眼显示技术将遵循不同的发展路径,VR 将长期使用 LCD、OLED 类型屏幕作为显示器件,近两年内须重点关注 1000ppi 以上的 AMOLED、Fast-LCD,5 年内须重点关注可变焦显示器技术。AR 分为图像源器件(OLEDoS、LCoS)和显示光学器件(如光波导、折返光学透镜、自由曲面棱镜等),近 2-5 年内须重点关注 OLEDoS 和光波导显示技术的发展和实际应用。

    可变焦显示、光波导技术成为 2018 年近眼显示前沿领域聚焦热点。从人眼双目视觉特性看,眩晕感主要源自三方面。一是显示画质,纱窗、拖尾、闪烁等过低的画面质量引发的视觉疲劳。二是视觉与听觉、触觉、前庭系统等其他感官通道的冲突。三是辐辏调节冲突(Vergence Accommodation Conflict,VAC),由于双目视差在产生 3D效果的同时,造成双目辐辏调节与视觉屈光调节不匹配,头显难以如实反映类似真实世界中观看远近物体时焦距与辐辏的对应变化关系和视网膜模糊效果。

    目前,对于产生眩晕感的前两类因素,业界已有可量产的解决方案,然而,针对第三类挑战的产业实践几近空白。可变焦显示成为此类眩晕的“第一颗解药”,2018 年 Oculus 研发出采用可变焦显示技术的原型机 Half Dome,解决了辐辏调节冲突,即通过眼动追踪获得使用者当前瞳孔视觉中心的位置,从而计算出使用者当前注视点位置以及所关注的虚拟物体在虚拟空间中距离使用者主视角摄像机的距离。

    通过机械装置前后移动屏幕改变物距及光学系统的焦平面位置,使像距与上述的距离相对应,由此人眼在 VR 头显中观察到物体的像距同虚拟世界中与该物体的距离(近似)相等,当注视点的物距发生变化时,对应头显光学系统的像距发生变化,人眼随之进行屈光调节,(近似)对应人眼的辐辏调节。注视点渲染将注视点以外区域图像模糊化渲染,模拟出人眼对焦产生的视网膜模糊效果,与上述过程配合,欺骗大脑实现辐辏-屈光调节生理上的仿真。

    业界积极探索显示计算化之路,虚拟现实近眼显示有望更加智能。现阶段虚拟现实终端中的显示器仅作为图像输出设备,本身不参与计算处理,这与电视、手机等传统终端显示器的功能定位一致,但针对更优的虚拟现实进阶体验,近眼显示具备极大的发展潜力。基于显示器内计算这一全新技术方向,近眼显示不仅呈现内容,还可计算用户状态。例如,为解决上文提及 VAC 这一产业痛点,英伟达等研发了显示器内计算的原型机,即在虚拟现实近眼显示器内进行两类计算,一是眼球追踪,二是为渲染动态的预畸变图像进行的光路计算。

(三)渲染处理:注视点渲染与混合渲染快速升温,端云协同、软硬耦合的精细化渲染成为趋势

    渲染处理领域的主要矛盾表现为用户更高的体验需求与渲染能力的不足。当前,面向虚拟现实的渲染处理面临着“小马拉大车,既要马儿吃得少,又要跑得快”的技术挑战。首先,相比主流游戏画面渲染与电影制作渲染的负载要求,时下虚拟现实渲染负载(部分沉浸体验级 PI)将分别提高七倍与两倍,相当于 4K 超高清电视每秒像素吞吐量。若以完全沉浸级 FI 乃至附带现有电影视觉保真度为渲染目标,虚拟现实渲染负载将在 PI 水平上再分别提高五十倍甚至数十万倍。其次,为获得即时反馈,传统视频游戏用户交互延迟须低于 150ms,而虚拟现实 MTP 时延要求低于 20ms。最后,对于移动平台固有的功耗约束,虚拟现实渲染处理领域所面临的技术挑战正在进一步放大。

    因此,更优的静态画质、视觉保真度、渲染时延与功耗开销成为该领域的技术动因。虽然可以通过堆叠算力来提高渲染质量,但这一不具备成本经济性的技术路线将迟滞虚拟现实产业发展。目前,业界聚焦面向虚拟现实的注视点渲染、深度学习渲染与混合云渲染等热点领域,旨在探索软硬耦合的精细化渲染之路。

虚拟现实与传统内容的渲染负载对比参考

    在渲染时延帧率以及功耗开销方面,注视点渲染、云渲染、异构渲染、混合渲染等有望在五年内成为虚拟现实领域主流渲染技术。其中,异步时间扭曲(Asynchronous Time Warp, ATW)显著改善了用户转头期间难以及时渲染生成复杂内容所造成的画面卡顿问题,该技术由 Facebook 在 2016 年推出,现已成为虚拟现实渲染标配,2017 年国内厂商全志推出了包含 ATW 功能的虚拟现实芯片 VR9。MultiView 渲染利用左右眼图像信息相近的原理,由 CPU 向 GPU 提交一次指令即可完成双目渲染,助推渲染帧率提升。目前 ARM 在 T8xx、Mali-G7x及 Mali-G5x 系列芯片、英伟达在 Pascal 架构中均集成了该渲染技术。

虚拟现实渲染处理技术产业化进程

    多分辨率渲染基于 MultiView 技术,可渲染生成同一屏幕内差异化分辨率的内容,从而降低渲染负载,2018 年高通推出了集成多分辨率渲染的虚拟现实专用芯片 XR1。注视点渲染(Foveated Rendering)基于人眼由中心向外围视觉感知逐渐模糊的生理特性,搭配眼球追踪技术,在不影响用户体验的情况下,显著降低注视点四周的渲染负载,最多可减少近 80%画面渲染。除注视点渲染突出的技术成效外,由于该技术与 MultiView、多分辨率渲染、眼球追踪、实时路径追踪、注视点传输以及可减少视觉伪影的注视点图像处理等热点技术交织关联,注视点渲染已成为 Facebook、谷歌、微软等研发力量重兵集结的必争之地,产业化进程持续加速,预计 2-5 年内望成为主流。云渲染旨在帮助用户在低配头显上实现渲染能力更强的 PC 级虚拟现实沉浸体验,通过降低虚拟现实终端购置成本,推动用户规模快速增长。由于该技术采用云端渲染处理、终端交互呈现的技术架构,对于虚拟现实这一时延敏感型业务,新增时延对于用户体验潜在影响较大。GPU 只是一只脚(机器学习)踏入云计算的门槛,另一只脚(图形渲染)还在传统主机上,云渲染技术将加速 GPU 云化进程,其发展有赖于相关网络传输技术、GPU 虚拟化(GPU 计算资源共享)、低时延编解码等领域的协同创新。目前,英伟达、微软、谷歌、英特尔等纷纷布局,我国三大运营商积极尝试。

    混合渲染旨在解决云渲染所引入的新增时延以及编码压缩造成的画质损失,将虚拟现实渲染处理拆分为云端与本地渲染协同进行,利用云端强大的渲染与存储能力实现静态画质与视觉保真度的提升,同时基于本地渲染满足时延控制要求,其研究焦点在于如何拆分虚拟现实渲染任务流,清华大学研究团队通过优化分配部分前景交互和背景环境的渲染负载,显著提升了移动 VR 渲染效率。异构渲染与混合渲染发展思路相仿,即将本地渲染处理拆分至 GPU 与其他计算架构单元协同进行。如为避免与内容渲染竞争 CPU、GPU 资源,ARM 计划将虚拟现实渲染处理中的光学畸变与色散校正从 GPU卸载到定位为其协处理器的显示处理器上(Display Processing Unit,DPU),从而优化渲染时延,降低渲染功耗。深度学习渲染成为人工智能在图像渲染领域的重要技术创新,可实现图像降噪、抗锯齿以及因注视点渲染带来的渲染负载减少。目前,学术界与产业界正在越来越多地投入深度学习渲染这一新兴热点中,但预计五年内进入技术实质应用期的可能性不高。

    在静态画质以及视觉保真度方面,光场渲染不同于现有仅展示物体表面光照情况的 2D 光线地图,光场可以存储空间中所有光线的方向和角度,从而产出场景中所有表面的反射和阴影,目前光场信息的采集、存储及传输面临着诸多基础研究挑战,光场渲染尚处于初期探索阶段,预计十年以上有望进入主流。实时光线追踪无须阴影地图,通过直接渲染镜头中的桶形失真图像,无须再对镜头畸变进行处理,从而消除有关延迟障碍。此外,由于无须光栅化中 3D 到 2D 图像的平面投影,光线追踪技术可解决 VR 视场投影问题,即直接在 360 度球形视场内渲染图像。光线追踪支持三角形、点、光场、乃至文本等混合图元,因而在内容优化方面更加灵活。2018 年英伟达发布第八代GPU 架构 Turing,Turing 架构配备了名为 RT Core 的专用光线追踪处理器,能够以高达每秒 10 Giga Rays 的速度对光线和声音在 3D 环境中的传播进行加速计算,将实时光线追踪运算加速至 Pascal 架构的 25倍,并以高出 CPU 30 多倍的速度进行电影效果的最终帧渲染。随着实时光线追踪开发生态逐渐完善,预判五年内有望成为技术主流。实时路径追踪可进一步提高图像的视觉保真度,业界现已可以进行实时光线追踪,但路径的实时追踪仍然存在极大挑战。由于当前电影领域路径追踪的计算负载约为光线追踪的一万倍,虽然学界尝试采用注视点渲染及深度学习渲染降噪,但预计该技术需要十年以上进入主流。

虚拟现实渲染处理技术路标

    虚拟现实渲染处理由粗放式向精细化渲染方向发展。虚拟现实画面渲染负载与时延要求数倍高于传统游戏,算力堆叠这一粗放式的渲染方式难以在渲染质量、时延与成本间取得平衡,精细化渲染成为业界主攻方向。从渲染质量上看,精细化渲染趋势呈现为分辨率、帧率等静态画质的持续提升,以及虚拟现实用户对动态光影等更高视觉保真度的追求;从渲染性能上看,反映出对渲染负载的差异化处理,以及渲染时延与功耗的约束控制;从技术创新上看,表现为端云协同的混合渲染以及软硬耦合的渲染优化。例如,相比传统游戏,面向虚拟现实的精细化渲染将计算扩展到云端,有望消除现有渲染管线中诸多时延障碍,可借助注视点渲染降低光栅化阶段的负载压力,深度学习渲染改善后处理阶段的抗锯齿效果,异构渲染分担畸变校正,异步时间扭曲简化整个渲染管线,从而压缩渲染时延与功耗。

虚拟现实精细化渲染技术趋势示意

(四)网络传输:网联式云化虚拟现实加速发展,5G 赋能云VR

    与近眼显示领域不同,面向虚拟现实的网络传输强调基于既定技术发展轨道的“微创新”,即针对虚拟现实带宽、时延双敏感的业务特性,优化适配各类网络传输技术,弥合潜在技术断点,打破当前“单机版”的发展定势,探索网联式云化虚拟现实技术路径,旨在保证不断进阶视觉沉浸性与内容交互性的同时,着力提升用户使用移动性,降低大众软硬件购置成本,加速虚拟现实普及推广。与 VR 相比,由于 AR 侧重与真实环境的人机交互,须将摄像头捕捉到的图片/视频上传云端,云端实时下载需要增强叠加显示的虚拟信息,因此需求更多的上行带宽。鉴于虚拟现实网络传输涉及接入网、承载网、数据中心、网络运维与监控及投影、编码压缩等技术领域,有关技术产业化进程如下。

虚拟现实网络传输技术产业化进程

    在接入网方面,Wi-Fi6、5G、10G PON 有望在五年内成为面向虚拟现实业务的主流传输技术。其中,Wi-Fi 技术可实现虚拟终端的移动化(无绳化),同时技术相对成熟、应用成本低,网络改造小。在家庭无线网络中,802.11n 同时支持 2.4GHz 和 5GHz 频段,802.11ac 支持 5GHz 频段。基于 802.11ac 的 Wi-Fi 在 80MHz 频谱上通过 4x4 MIMO、Beamforming 等技术可实现最大 1.7Gbps 空口速率,在无干扰的情况下,可满足虚拟现实良好体验。

    目前,我国开放了 3 个 80Mhz 信道,随着家庭 5G Wi-Fi 普及,同频与邻频干扰情况日趋严重,影响 VR 高带宽低时延体验需求。基于 802.11ax 的 Wi-Fi6 技术引入新的 8x8MIMO、OFDMA、1024 QAM 等新特性,具备有更优抗干扰能力、传输速率与并发能力,可处理来自多个 VR 用户的不同类型的流量,当前标准基本定稿,预计 2019 年开展认证测试。基于 802.11ad 的 WiGig 技术可在短距离内提供超高带宽和极低的延迟的双向数据通路,Intel 现已经推出相关产品,可在主机和 VR 头显间完成无压缩的视频传输,其后续标准 802.11ay 具有更高传输速率与更远传输距离,可为虚拟现实极致体验的无线传输提供技术基础,当前标准尚在研讨阶段。固定宽带 PON 接入在整个网络中起着对家庭网络的接入和汇聚的作用,成为运营商最靠近用户的网络。

    当前已规模部署的 FTTH 技术包括EPON 和 GPON,EPON 仅能提供 1Gbps 带宽接入,不适宜虚拟现实业务部署。GPON 技术可提供 2.5Gbps 带宽接入,时延小于 2ms,能够满足少量 VR 用户承载。为满足 VR 用户规模化发展,须将 EPON/GPON升级到 10G EPON/GPON。随着 VR 体验持续进阶,在完全沉浸阶段(24K 全景内容分辨率),单用户 VR 带宽需要达到 Gbps,10G PON 难以满足要求,须向更高速率的 PON 技术演进。

    从当前产业进程看,IEEE 802.3 已着手研究单波长 25G PON、双波长叠加的 50G PON 和四波长叠加的 100G PON 标准,四波长叠加的 100G PON 因技术难度过高,IEEE 现已去掉 100G 项目目标,仅保留 25G PON 和双波长叠加的50G PON。由于 25G PON 和 10G PON 容量接近,从 10G 升至 25G 带宽改善颗粒较小,且基于双波长堆叠的 2×25G 成本经济性低于单波50G,因而不适合作为 10G PON 的升级路线。业界综合考虑网络远期需求、建网成本等因素,在 2018 年 2 月 ITU-T SG15 全会通过单波长50G PON 标准研究立项,计划于 2020 年标准化。

    5G 将改变移动业务的发展趋势,未来移动业务将呈现出智终端—宽管道—云应用的大趋势,5G 引入新空口(New Radio)、多天线(Massive MIMO)、终端 4 天线等关键技术提供超大带宽(10-20Gbps)、超低时延(1ms)及超强移动性(500km/h)等网络能力确保虚拟现实完全沉浸体验,eMBB 场景的 3GPP R15 标准于 2018 年 6 月已冻结,支持 2019 年以云化虚拟现实为重点业务场景的 5G 首波市场商用。未来 5G 的目标网可为每用户提供随时随地平均 100Mbps 的无线接入服务,为 VR/AR 业务提供极致体验。

    2018 年初韩国运营商 KT 率先在 2018 平昌冬奥会运营 VR直播业务,展示 5G 的大带宽、低时延特性。此外,中国三大运营商2019 年部署 5G 预商用网络,为 VR 业务提供网络基础。

    在承载网方面,虚拟现实业务对带宽、时延、丢包率提出更高要求,致使当前高汇聚、高收敛承载网络面临如下挑战。一是网络效率低,由于汇聚层次越多,收敛比越低,同步扩容的端到端设备规模越大。CDN 部署位置高,业务流经网络设备众多,发生拥塞的概率也越大,端到端时延随之增加。二是用户体验差,多种业务并发时,随着网络利用率的提升,丢包和时延会同步提升。轻载网络中 98.7%的突发丢包发生在从高带宽向低带宽过度的汇聚节点,相比其他业务,虚拟现实体验对丢包率的提升更为敏感。因此,简化传统网络架构可提供单纤超大带宽、最佳适配距离、流量无收敛、快速按需带宽的互联基础管道,提高承载网传输效率;云网协同契合承载网基于体验建网的新理念,可基于虚拟现实业务的每次交互进行保障,在用户真正使用业务时才分配对应的物理管道,在沿途各节点分配资源和调度,业务终止时资源立即释放,满足管道按需、动态、开放、端到端发展趋势;由于 IP 网络带宽多业务共享,FlexE 等网络切片技术面向虚拟现实这一时延敏感业务,可支持大颗粒带宽业务的物理隔离和捆绑,能够保障低时延业务服务等级;边缘计算借助网络边缘设备一定的计算和存储能力,实现云化虚拟现实业务的实时分发,如 VR 视频直播可以全视角流推送到网络边缘,再进行基于单用户视场角的信息分发;在数据中心方面,随着云化虚拟现实发展,业界对数据中心网络提出新的要求,即更大数据流与更低业务时延,有关网络保障主要依赖拥塞控制技术,相比既有被动拥塞控制在高速网络下反馈速度变慢等不足,尚待发展初期的主动拥塞控制可精准明确拥塞状态和多业务流在接收端的并发情况,主动分配速率,满足虚拟现实应用的优先级、带宽、延迟、流完成时间等具体业务需求;在传输预处理方面,目前虚拟现实视频编码仍主要使用 HEVC,针对 VR 360 度视频的编码已经标准化,编码工具已经成熟。MPEG 等标准组织的研究表明,对应于HEVC 的下一代编码技术(H.266)的压缩效率可提升 30%;在全视角(等质量)传输中,终端接收到的一帧数据中包含了用户可看到的空间球对应的全部视角信息。

    用户改变视角的交互信号在本地完成,终端根据视角信息从缓存到本地的帧中解出对应 FOV 信息,在播放器中矫正还原,因此仅由终端保证 20ms MTP 时延,不涉及网络和云端时延,这一技术路线对带宽要求较高,时延要求较低,属于“带宽换时延”。在内容准备侧,须编码全视角 VR 内容,准备多个质量的 VR码流,用户端根据带宽选择 VR 码流播放,相当部分传送到用户端的内容数据因视场角影响损失浪费。在 FOV 传输技术中,终端接收到的一帧数据中不再包含空间球的无差别全部视角信息,而是根据用户视角姿态构造对应的帧数据,终端判断用户转头改变视角的姿态位置,并发送至云端,请求新姿态对应的帧数据。

    因此 20m MTP 既包含终端处理时延,也包含网络传输和云端处理时延,该技术对带宽要求降低,时延要求变高,属于“时延换带宽”,目前呈现由全视角传输的“带宽换时延”向基于 FOV 传输的“时延换带宽”方向发展。现阶段FOV 传输技术存在以下三条发展路径,一是 Facebook 提出的金字塔模型,即在内容准备侧,针对每个视角准备一个全视角的质量不均匀的码流,模型底部为高质量用户视角区域,随着金字塔高度的上升,其他区域通过亚采样降低分辨率。终端根据用户当前视角姿态位置,向服务器请求对应的视角文件。缺点是多耗费头端 GPU 编码、CDN 存储和传输带宽。二是基于视频分块(Tile)的 TWS 传输方案,在内容准备侧,将 VR 画面划分为多个 Tile,每个区域对应一个可以独立解码的码流,同时准备一个低质量全视角的 VR 码流,根据用户视点和视角只传输观看范围内容的高质量 Tile 视频分块和最低质量全视角视频。该方案被 MPEG 组织 OMAF 工作组采纳,并写入了新近标准文档《ISO/IEC FDIS 23090-2 Omnidirectional Media Format》中,被推荐采用。

    采用按需传输、部分解码策略的基于视点自适应 TWS 传输方案可有效解决 VR 业务应用中的高分辨率全景视频传输带宽、解码能力和渲染输出三大问题,根据用户的即时观看区域动态地选择传输视频分块,可以有效地节省网络流量开销。同时为保障用户转头时,无察觉地切换新视点高质量内容,传输一个质量基本可接受的全景视频流,因此 20ms MTP 可由终端保证,云端和网络只需保证切换新视点时,高低质量内容的切换时间在用户能明显感知的范围内即可(200-300ms)。三是 FOV+方案,FOV+不是全视角编码,而是不同视点的剪切视频流编码,通过传输比 FOV 角度略大画面来应对网络和处理时延,如以用户转头速度 120 度/秒估算,则 50ms 为 6 度,即各方向多传 6 度画面可以补偿 50ms 的 RTT 时延,降低交互体验对网络 VR 端到端时延小于 20ms 的要求;

    在运维保障方面,虚拟现实运维基于产业发展和实现难度可分为手动、自动和智能运维层次。相比普通 4K 视频,在虚拟现实起步阶段,尚未构建 VR QOE 评估体系,基于用户投诉触发 VR 业务的手动运维。随着用户规模发展与评估体系构建,主动获取 VR 用户体验,将运维经验工具化,实现“端-管-云”的自动化运维。在自动化运维基础上,引入机器学习等人工智能技术,提供具备主动性、人性化及动态可视的智能化虚拟现实运维能力,从而实现“无人”运维。综上,虚拟现实有关需求体验进阶与有关网络传输技术供给能力间演进关系如下图所示。


    “5G+VR”成为 2018 年面向虚拟现实网络传输领域的研讨热点。拟现实将成为 5G 规模应用的关键场景,如在由中国信息通信研究院及 IMT-2020(5G)推进组主办的绽放杯 5G 应用征集大赛中,近三分之一初赛方案涉及虚拟现实。5G 网络高速率、低时延的特性适合承载虚拟现实业务,对 VR 终端而言,须考虑集成 5G 通信模块的峰值速率、5G 频段、IP 协议栈以及与 VR 产品集成方式等要求。

虚拟现实网络传输技术路标

    目前,VR集成 5G 通信模块有两种方式,一是 VR 终端直接使用 5G 通信芯片的套片进行一体化设计,该方式对 VR 终端设计要求较高。二是以 5G 通信模组方式集成,5G 通信模组可提供插拔式接口 minPCIe 或 M.2,也可提供焊接方式接口 LCC 或 LGA,VR 终端可根据产品需要选择合适接口方式。此外,网络切片、边缘计算等 5G 基本网络能力赋能虚拟现实业务。

    中国移动在云 VR 应用白皮书中研究表明网络切片技术通过定制的端到端专用网络为云化虚拟现实应用提供专属网络通路,解决了云 VR 应用源视频采集端上行带宽大、用户侧无线资源竞争受限、网络部署成本高等问题。同时,通过按需提供端到端网络切片(包括接入网、传输网和核心网),提供端到端的通信质量保障。上行基于网络切片优先调度机制保障传输带宽,下行通过网络传输到用户侧进行观看,云 VR 应用源与用户侧之间通过端到端网络切片实现 SLA/QoS保障,从而可以提供高交互多场景的沉浸感体验;CDN、边缘计算技术(MEC)解决了用户接收端多路转发推送的需求,MEC 根据业务时延需求的不同按需部署在网络中的不同位置,实现虚拟现实直播互动不同场景对网络时延的差异化需求,一定程度上避免因带宽和时延受限带来的眩晕感,且减少对回传资源消耗。

基于 MEC 平台实现 VR 直播

(五)感知交互:眼球追踪成为焦点,多感官交互技术路径多元化

    感知交互强调与近眼显示、渲染处理与网络传输等的技术协同,通过提高视觉、触觉、听觉等多感官通道的一致性体验,以及环境理解的准确程度,实现虚拟现实“感”、“知”能力的持续进化。当前,由内向外的空间位置跟踪已取代由外向内的技术路线,成为主流定位跟踪技术。继此之后,眼球追踪有望成为虚拟现实感知交互领域最为重要的发展方向之一,鉴于该技术与其他重点领域的融合创新潜力,业界对眼球追踪的研讨焦点已由两年前是否具备落地价值转变为何时能够落地。此外,感知交互技术在 VR、AR 领域的发展路线有所差异,就 VR 而言,侧重于多感觉通道交互。由于虚拟信息覆盖整个视野,重点在于现实交互信息的虚拟化。对于 AR 而言,由于大部分的视野中呈现现实场景,感知交互侧重于基于机器视觉的环境理解。

虚拟现实感知交互技术产业化进程

    在感知领域中,由内向外追踪定位、手势交互、机器视觉等有望在五年内成为虚拟现实主流技术。其中,追踪定位作为感知交互领域的基础能力,业界投入最大,且日趋成熟。2017 年基于光学和激光的由外向内(Outside-in)追踪定位技术实现产品化,并开始大量用于体验馆、线下门店等商业场景。

    2018 年由内向外(Inside-out)追踪定位技术取代 Outside-in,明确成为虚拟现实主流追踪定位技术架构。在 VR领域,HTC、Facebook 于 2018 年发布其新一代一体机,标志着作为Outside-in 技术的两大标杆企业转向支持 Inside-out 技术路线,与本就采用 Inside-out 架构的微软 WMR(Windows Mixed Reality)共同成为追踪定位的主要技术流派。

    在 AR 方面,基于终端平台的差异,手机式 AR 以苹果 ARKit、谷歌 ARCore 与华为 AR Engine 为代表的 AR SDK普遍遵循单目视觉+IMU 融合定位的技术路线,可提供厘米级准确度和毫米级精密度定位输出;手势交互在 2016 年处于期望高峰,基于手柄的非裸手交互控制依然是主流方向,融合 Inside-out 6DoF 头动和6DoF 手柄交互的所谓“6+6”交互路线成为发展趋势,与 2017 年主流“3+3”、“6+3”方式相比,提升了手柄 6DoF 跟踪交互能力,代表厂商有 Oculus Quest、Pico 及 Nolo、Ximmerse 等。此外,裸手交互的业界标杆是以 Leap Motion 和 uSens 为代表的双目红外相机方案,支持双手交互、单手 26DoF 跟踪,广泛用于一体式、主机式虚拟现实终端,而在手机式产品方面,华为 AR Engine 利用结构光器件实现了单手 26DoF 交互方案。

    目前,由于该技术在使用疲劳、识别率不高、缺乏反馈等方面的固有问题,且鲜见与之适配的落地场景,因此处于发展低谷期。此外,作为交互操控的技术核心,随着深度学习的快速发展,交互范围也逐渐从手部拓展到肢体,过去基于随机森林的体感骨骼识别跟踪技术逐渐被基于深度神经网络的肢体关节点识别和轮廓分割技术所取代,以 Wrnch、Facebook、华为 AR Engine、百度、旷视、商汤等国内外厂商先后推出可实时运行的人体骨骼点跟踪技术,广泛用于各类 AR 应用;基于机器视觉的识别重建成为旨在提升虚拟现实真实感的新兴热点,其中稠密重建技术发展较为迅速,除混合现实终端标配 ToF(Time of Fight,飞行时间)摄像头提供稳定的高精度深度图像外,苹果、华为、OPPO 等手机厂商开始采用结构光、ToF 器件,这为识别和重建带来了有力的硬件基础,预计相关投资和内容开发商将快速增加。在 VR 领域,识别重建应用场景较少,微软、Facebook等探索涉及混合现实功能的技术路线。在 AR 领域,华为 Mate20 Pro利用前置结构光器件进行小物体实时扫描建模,Magic Leap One 率先实现了基于几何理解的实时 Mesh 重建以及根据重建 Mesh 进行虚实遮挡,确定了多目 RGBD 视觉定位的技术路线,实现了准确度和精密度的“双毫米级”。作为识别重建的技术内核,基于深度学习的语义分割开始在识别重建中频繁采用,准确获取图像中的物体类属以及对应的边缘 Mask 与 Mesh 信息,是未来有针对性进行重建的必要步骤。

    此外,肢体姿态捕捉配合人体重建成为 2017-2018 年 CVPR、SIGGRAPH等国际会议的重点课题,相关文娱社交类应用相对丰富;在交互领域中,沉浸声场、眼球追踪与虚拟行走等有望在五年内成为虚拟现实主流技术。其中,沉浸声方面,业界愈发重视声音在虚拟现实领域沉浸体验上的技术潜力,通过设计头部相关传递函数(HRTF)强化视觉和听觉的一致性,以实现逼真的声音方位与远近效果,同时模拟基于反射、遮挡、隔绝封闭、混响回声等声音氛围。

    目前,英伟达、杜比、微软、谷歌、高通、Unity、Facebook 及众多初创企业等纷纷布局,旨在打造符合听觉与声学特性的沉浸式声场,预计沉浸声有望在 5 年内成为主流(基于个性化 HRTF 的沉浸声将在 10 年内成为主流);触觉反馈带来的虚拟现实沉浸体验提升已成为业界共识,随着苹果 Taptic Engine 技术在其各类产品中的推广应用,Oculus、任天堂等采用反馈时延更短的线性马达取代传统廉价的转子马达。

虚拟移动领域各类细分技术路线

    虽然技术标杆 Immersion公司为日益增多的虚拟现实企业提供触觉反馈技术,业界关注点聚焦通过震动和机械力模拟触觉反馈,超声波和静电力模拟触觉质地的探索尚在实验室阶段;眼球追踪之所以成为继Inside-out 追踪后业界重兵投入、产业化进程加速的技术领域,除眼动控制可用于内容交互设计创新、用户兴趣点分析外,更重要原因在于该技术与其他关键领域融合创新的发展潜力。在近眼显示与渲染处理领域,眼球追踪+变焦显示(Varifocal)+注视点渲染的技术组合,可实现基于 GPU 渲染的画面局部模糊,兼顾渲染负载优化,解决了辐辏调节冲突这一重大技术痛点。在感知交互领域,眼球追踪根据人眼扫视抑制的特性,促进虚拟行走技术的发展。在考虑眼球追踪成本问题的情况下,预计该技术将在五年内成为主流;虚拟移动旨在填补目前 VR 领域移动交互与视觉内容适配这一技术空白,可实现大空间行走、行走重定位等,2018 年这一新兴领域获得了日益增多的投入。

虚拟现实感知交互技术路标

(六)内容制作:内容交互性不断提高,助推媒体采编播创新

    作为新一代人机交互界面,虚拟现实契合时下新媒体所追求视觉沉浸感与用户交互性的发展趋势。虚拟现实内容制作技术开始广泛应用于纽约时报与 CNN 等纸媒电视、YouTube 与爱奇艺等互联网视频平台、Verizon 与中国移动等电信运营商视频网络,并在“采、编、播”环节注入了创新活力。内容采集环节,由于虚拟现实可提供 360 度、720 度的全景视频,双目、阵列乃至光场式 VR 相机取代了传统画面视角受限的单目摄影机,可采集 4K-12K 全景分辨率的 3D 视频内容。

    此外,由于 360 度无死角拍摄,编导与摄影师等工作人员站位、观众视觉兴趣点引导、多相机同步控制等新问题对内容采集带来挑战;内容编辑环节,由于虚拟现实相机涉及多镜头同时拍摄,从而产生出视频间精准拼接缝合这一全新内容编辑技术。根据实现方式的不同,可分为实时、离线拼接与自动、手动拼接等。英伟达近期推出其拼接编辑软件 VRWorks360,可实现单一 VR 相机中多达 32 个拍摄镜头的跨平台的实时拼接。此外,由于虚拟现实强调观众沉浸感与互动性,在内容制作方面开展了相关基于后期特效合成的微创新。例如,在既有真实拍摄内容上,基于机器视觉与三位建模,引入观众虚拟化身参与其中。同时,通过 3D 沉浸声、混合云渲染等方式附加高保真的虚拟图像,从而实现内容制作的“虚实融合”;内容播放环节,由于虚拟现实需要解决如何将内容编制时的平面媒体格式转化为用户最终看到的全景球面视频,因此运用了传统视频没有涉及的投影技术。

    其中,等角投影是 YouTube、爱奇艺等采用的主流技术,但存在画质失真、压缩效率低等问题,多面体投影成为发展方向。此外,现有操作系统需要优化创新以适配虚拟现实内容应用的体验要求。

虚拟现实内容制作技术产业化进程 

    全景拍摄、全景声采集、拼接缝合、虚拟化身、WebXR、操作系统成为虚拟现实内容制作发展热点。中,在内容采集方面,用于全景拍摄的虚拟现实相机可分为手机式、一体单目式、一体多目式、阵列式、光场式等。目前,前三类分别占据全球虚拟现实全景相机收入份额的 7%、80%与 11%。手机式本身计算处理能力有限,须外接手机使用,不具备拍摄 3D 视频能力,代表产品如 Giroptic iO Pop。一体单目式可独立与手机使用,通常可在本地自动完成拼接缝合,但无法拍摄3D 视频,如 Ricoh Theta V、Z Cam K1 Pro 等。一体多目式可拍摄 3D视频,消费级终端通常提供 4K 全景视频,专业级设备以拍摄 8K 视频为主,如 YI VR180、Insta360 Pro 等。

    阵列式基于分辨率和低光环境等拍摄考虑可进一步分为 GoPro Omni 等标准式和采用 RED Dragons 等专业级摄影机的自定义式;光场式通过光场或激光雷达可实现 6DOF的 3D 全景视频拍摄,进一步增加画面沉浸感,且缓解用户眩晕,海量数据存储与压缩成为这一技术路线的主要挑战,代表产品有HyperVR 等。综上,全景相机发展呈两极化演变态势,一方面为方便更多 UGC 快速便捷的制作虚拟现实内容,会朝着小型化、易用化、多功能、机内拼接、降低成本方向发展。另一方面为满足高端 PGC 生产高质量视频内容,更高分辨率、自由度、更多视频格式与斯坦尼康等拍摄辅助器材支持成为又一发展路线。

    全景声麦克风(Ambisonic)可以采集单点所有方向的声音,作为一项既有拾音技术随着虚拟现实的兴起被业界关注,目前谷歌、Oculus 已将其作为 VR 的声音格式;在内容编辑方面,除全景视频所须的拼接分割外,为进一步增加内容互动性与社交性,可通过虚拟化身技术实现以机器或是以真实用户为对象的模拟,目前面向虚拟现实、以用户为对象的虚拟化身技术主要有语音口型适配、面部表情追踪、基于 2D 照片的 3D 建模以及人体 3D扫描四类技术路线;在内容播放方面,WebXR 技术旨在解决跨平台内容分发问题,让内容回归内容本身,对于目前硬件终端、内容服务商碎片化的发展现状,这一跨平台特性助推内容生态加速成形,2017 年Oculus 开源其 WebVR 开发工具 ReactVR,以帮助开发者通过网页而非某类虚拟现实终端来部署 VR 内容,目前 WebXR 技术向基于 ARCore 的WebAR 及后续涉及 Hololens、Magic Leap 等终端平台的 AR 方向发展。

虚拟现实内容制作技术路标

    3D 化与实时性成为现有操作系统技术面向虚拟现实优化创新的重要技术方向。正如 iOS 基于 UNIX,Android 基于 Linux,虚拟现实 OS并非独立于现有操作系统发展而来,在操作系统和底层软件上继承了移动端特性,是基于移动 OS 定制优化的嵌入式实时系统。

    一方面,结合近眼显示等特点,虚拟现实 OS 有望成为首个 3D 化操作系统。当前移动 OS 主要面向传统手机应用设计,用户视野较小,UI 控件和Layout 布局方式均面向 2D,对多任务系统的执行并不迫切。虚拟现实 OS 可能不再有“桌面”概念,用户目之所及即为操作界面,更加强调空间思维,在 3D 图形渲染、3D 内容传输、3D 显示乃至基于 glTF等新兴 3D 格式等方面变化甚巨。另一方面,结合感知交互等需求,虚拟现实 OS 凸显稳态、实时、紧耦合的发展特性。传统移动 OS 是一个“待命式”系统,系统基于用户有意识主动操作进行响应,且各子系统相对独立,如传感与渲染子系统、图像输入与渲染子系统,并无传感器直接同渲染处理耦合,系统设计存在诸多缓存逻辑。虚拟现实OS 更像稳态系统,不论用户主动操作与否,从姿态到渲染保持实时稳定运行,20ms MTP 时延约束成为其中核心技术挑战,体现在如下方面。在图形渲染方面,由于复杂合成系统将带来过高渲染延迟,不同于移动 OS 用户界面 2D 图层合成的方式,虚拟现实 OS 渲染方式存在显著差异。在传感融合方面,移动 OS 交互方式以触屏为主,基于这一交互技术的事件体系在虚拟现实中无法使用,此外,移动 OS 系统架构中缺少高精度高频率的传感融合实现,架构的复杂性导致传感延迟较高。在内容应用方面,移动 OS 图形驱动均为 C++库,上层应用采用 Dalvik 虚拟机作为运行时,与实际图形驱动较远,效率较低,且移动 OS 的事件回调机制难以满足虚拟现实应用的实时性需求。
    
标签:增强现实AR
上一篇:使用Unity3D和HTC VIVE实现下颌骨虚拟手术下一篇:我国发展虚拟(增强)现实产业面临的问题
网友评论:虚拟现实、增强现实关键技术发展趋势
留名: 验证码:
最新评论
查看全部评论0
暂无评论
您可能还需要关注一下内容:
·洪水淹没虚拟仿真三维可视化技术研究
·虚拟仿真提升植入式医疗设备的性能和安全性
·基于 OSG 的海洋环境三维可视化系统研究
·在HoloLens 2上尝试运行新的虚幻引擎应用
·增强现实(AR)技术的教育研究现状及发展趋势
·空客A320飞行驾驶模拟器单人桌面版
·IVRTC2019 第二届虚拟现实技术及应用创新大赛
·虚拟现实/增强现实的盈利尝试:盖思币
·全面解析微软AR眼镜HoloLens2
·Unity将MARS AR/MR工具扩展到Magic Leap和HoloLens
☏ 推荐产品

小宅 Z5 2018青春版
商家:小宅

杰瑞特运动平台
商家:杰瑞特智能

Dikalis眼动追踪
商家:赢富仪器

魔神 Hawk
商家:魔神运动分析

5DT Binoculars
商家:四维宇宙

Christie DS+750
商家:四维宇宙

Zalman M220W
商家:四维宇宙

全息360°
商家:四维宇宙

PD F10 AS3D
商家:四维宇宙

PHANTOM系列
商家:四维宇宙
☞ 外设导航
☏ 企业名录
【广州】广州弥德科技有限公司
【上海】刃之砺信息科技(上海)有限公司
【北京】北京度量科技有限公司
【北京】北京小鸟看看科技有限公司
【北京】北京视科创新科技有限公司
【北京】德可达科技有限公司
【北京】北京圣威特科技有限公司
【上海】惟亚(上海)数字科技有限公司
【大连】大连伟岸纵横科技发展有限公司
【成都】成都愿景仿视科技有限公司
关于本站联系我们融资计划免责声明网站建设广告服务咨询策划行业推广
北京第三维度科技有限公司 版权所有 京ICP备15051154号-3
2008-2020 Beijing The third dimension Inc. All Rights Reserved.
Email:d3dweb@163.com  QQ:496466882
Mob:13371637112(24小时)
关注虚拟现实
关注第三维度