站点图标 度崩网-几度崩溃

腾讯杰出科学家刘杉:5G时代,人工智能技术将成媒体融合的推进器

腾讯杰出科学家刘杉:5G时代,人工智能技术将成媒体融合的推进器-度崩网-几度崩溃

(腾讯杰出科学家、腾讯多媒体实验室总经理 刘杉)

11月6日-7日,首届Techo开发者大会在北京召开。本届Techo大会邀请了海内外150位行业专家围绕前沿技术发展进行解读。腾讯杰出科学家、多媒体实验室总经理刘杉发表了主题为“视频编解码技术的演进和应用”的演讲,从在线视频驱动互联网流量爆发的技术支撑与技术现状,当前主流视频编解码格式和标准的制定,视频编解码技术的演进和应用,以及5G时代下多媒体业务的发展方向等方面,分享了腾讯多媒体实验室的最新成果与思考。

刘杉在演讲中介绍了当前互联网流量的来源分布,并预计2022年超过82%的互联网流量将来自于视频或者包含视频的应用,而这一增长趋势蕴涵着巨大的商业价值。

视频编解码技术听起来专业难懂,可是它的应用却与人当下的感官体验有着亲密连接。比如大众日常接触的腾讯视频、微视、微信、QQ等与视频密切相关的产品,还是其他互联网公司每天产生的视频内容,都是以压缩的形式传播的。而视频压缩即视频编解码,它的效率,直接影响到一个产品或者一套解决方案的效率、成本、品质,甚至是成败。刘杉在演讲中也分享了视频编解码技术过去30年的演进历程,并指出当下视频编解码的架构变得更加复杂,承载的技术更加丰富,而这些技术的演变都使得压缩效率不断提升。

尽管压缩效率非常重要,但并不是所有人都在使用压缩效率最高的编解码格式,因为不同的应用场景对视频编解码器的需求侧重有所不同。刘杉表示,在质量、延迟和带宽或者成本之间寻找一个最优平衡点是腾讯多媒体实验室努力的方向和目标。

以云游戏为例,在线游戏行业千亿市场,但云游戏商业化面临的现实挑战是它的高成本。云游戏是以云计算为基础的游戏方式,刘杉表示对其成本结构进行拆解后发现,云游戏最大一块成本来自于带宽 34%,其次是GPU 27%。“视频编码器的优化将有助于大大降低云游戏的带宽成本,推动云游戏商业化,”刘杉表示,“腾讯多媒体实验室已经和正在使用的视频编解码器优化策略。比如,启用更高效率编解码格式,对硬件编码器进行优化,针对不同游戏场景优化编码工具集使用,同时支持多格式软件硬件编码器并根据内容和分辨率进行切换,动态编码码率策略,ROI编码和网络自适应编码技术,硬件解码渲染一体化等。”

无论视频流量的持续增长还是云游戏的商业化,当前都正面临着一个历史性风口浪尖,即5G。刘杉认为,5G网络提供给我们超强的带宽,超低的延迟,使得更多的应用触手可及。在5G的影响下,媒体内容的生产、获取和传播方式都在发生变化。“无论是4K/8K,还是VR/AR/MR/点云,这些在过去因为受限于网络带宽的应用,在5G的推动下可能会迎来突破。而5G的低延迟特性还将触及医疗和其他一些倚赖高速连接和互动的领域,例如远程手术和自动驾驶等。此外,刘杉认为,在万物互联的5G时代,媒体的智能化已经成为不可阻挡的趋势和发展方向,人工智能技术成为媒体融合重要的技术手段和工具。

截至目前,腾讯多媒体实验室约70个技术提案已被 VVC 采纳,多人在标准组织中担任重要职务,并将王者荣耀推入标准测试序列。作为国际行业标准不可忽视的影响者和领导者。腾讯多媒体实验室专注于多媒体和相关领域的前沿技术探索、研发和产品落地,包含音视频编解码、网络传输和实时通信,基于信号处理和深度学习的多媒体内容分析、理解、处理和质量评估,沉浸式媒体(VR、AR、点云等)系统设计和端到端解决方案;同时负责国际国内行业标准制定,包含多媒体数据压缩,网络传输协议,多媒体系统和开源平台等。

以下为刘杉演讲全文:

尊敬的各位领导、女士们、先生们,上午好。欢迎来到北京,来到Techo开发者大会。我是刘杉,来自腾讯多媒体实验室。今天要和大家分享的题目是“视频编解码技术的演进和应用”。

视频编解码作为一个研究或者研发领域已经存在了一些年,大家并不陌生。无论是从早期的数字电视时代,还是到后来的OTT和现在的万物互联,技术在持续演进,但是重要性从来未曾改变。今天希望和大家一起对这个经典的课题做一些新的思考。

2017年以来,视频流量在整个互联网流量的占比一直处于高位。从2017年的75%, 到当前的约80%, 到2022年我们预计超过82%的互联网流量将来自于视频或者包含视频的应用。而整个互联网流量以平均每年26%的速度增长。以2019年为例,每月约200ExaBytes的互联网流量里80% 也就是约160ExaBytes的互联网流量来自于视频。到了2022年,这个数字将会翻倍。这个巨大的数字所代表的商业价值不言而喻。

作为全球最大的互联网公司之一,腾讯为全球互联网流量有很大贡献。而腾讯旗下的很多业务都和视频这一媒体形式密切相关,例如:腾讯视频,微视,和我们熟知的微信,QQ等等。其中很多是通过视频云对外输出。当然在腾讯之外还有更多互联网公司每天产生巨大的视频内容流量。而所有这些视频内容都是以压缩的形式传播的。

视频压缩,即视频编解码,是数字时代视频应用的一个不可缺少的环节。而视频编解码的效率,直接影响到一个产品或者一套解决方案的效率,成本,品质甚至是成败。所以,在过去三十多年里,全球很多企业和研究机构投入巨大资源,研发了许多视频编解码技术,并形成了几代视频编解码标准。其中主流的标准有: ISO/IEC和ITU 制定的国际标准,像我们熟知的 MPEG-2, H.263, H.264/AVC, H.265/HEVC 和正在制定中的VVC. 腾讯于2018年开始参与VVC标准制定。迄今为止已经向标准组织提交超过250个技术提案,其中约70个技术提案已被标准采纳。腾讯,已经成为国际视频编解码标准制定的主要贡献者之一。

自H.264/AVC于2003年截稿发布main profile以来,成功主导全球各个领域视频编解码市场。H.265/HEVC main (main10) profile于2013截稿发布,其压缩性能比H.264/AVC提高约40%,但是由于比较复杂和具有一定不确定性的专利收费政策,至今还不能像H.264/AVC一样主导全球市场。

与此同时(2015),Google,Mozilla, Cisco等公司发起创立了开源标准AOMedia,致力于建设免费的(或者专利友好的)的视频编解码标准,于2018年发布了第一代开源视频编解码标准AV1. 腾讯在九月正式加入AOMdia,是第一家也是迄今为止唯一一家成为 AOMedia 董事会成员的中国公司。腾讯将和其他AOMedia成员公司一起拓展开原生态,推动AV1商业化,并建设下一代开源视频编解码标准。

当然同时,我们也大力投入国标AVS的建设,推广,和应用落地。

在过去三十年里,视频编解码技术不断演进,从MPEG-2, 到H.264/AVC, 再到H.265/HEVC 和VVC; 开源侧从VP8到VP9, 再到AV1,我们可以看到视频编解码的架构变得更加复杂,承载的技术更加丰富,主要体现在几个方面,比如 编码,预测和变换单元以及树结构的拓展,帧内预测,帧间预测,变换与反变换,环路滤波和熵编码。这些技术的演变都使得压缩效率不断提升,当然同时,计算复杂度也随之增加。

将几个主流视频编解码格式的压缩效率做个简单对比。测试结果来自于开源软件x264, x265, libvpx, libaom的最佳质量设置,在constant QP模式下对100多个不同分辨率不同场景的测试序列进行编码,取平均值以保证结果的代表性。在同等压缩质量的情况下,使用几种编解码格式分别对应的bitrate, 基本上,VVC压缩性能最高,其次是AV1, HEVC和VP9效果相当, 然后是AVC, 这些格式都比经典的MPEG-2压缩性能有长足的提高。

上面我们对现在市场上几种主流视频编解码标准格式做了简单技术回顾和压缩性能对比。那么是不是所有人都在使用压缩效率最高的编解码格式呢?答案是No. 这里有一份第三方调查报告,显示了当前市场上各类编解码器的部署情况。我们可以看到,H.264/AVC仍然是主流,其次是H.265/HEVC。Legacy MPEG-2编解码器尚有一定使用率,但是在未来会逐渐被取代。同时,开源编解码器VP9和AV1的部署将会大幅度增长。

不同的应用场景对视频编解码器的需求侧重有所不同。有些应用场景,比如长视频影视类点播,通常会要求高画面品质而对延迟不做过多要求。而另外一些场景比如直播和实时音视频通话等应用对延迟的要求就比较高。按照ITU G.114建议,对于好的通话质量,单向端到端延迟应不大于150ms。如果时延在200~400ms, 通话的交互性比较差, 但是尚可接受。时延大于400ms, 则无法正常交互。而游戏对延迟的要求更是苛刻,通常要求端到端延迟小于60ms 甚至更低。

而值得注意的是,上面说的数字都是端到端的延迟。而视频从采集到播放的整个链路里包含端上处理延迟,端到服务器延迟,以及服务器之间传输,排队和服务处理等延迟。视频编解码延迟只是端上处理延迟的一部分。这就意味着,要达到低延迟应用和业务的要求,我们的视频编解码运行速度需要很快。

在质量,延迟和带宽或者成本之间寻找一个最优平衡点是我们努力的方向和目标。

我们都知道软件编码器具有灵活的优点,可以达到更高的编码质量。但是它的一个缺点是速度慢,尤其是在压缩高分辨率内容的时候。所以对于低延迟尤其是超低延迟的应用场景,我们多采用硬件编码器。这里我们举一个云游戏的例子。云游戏是以云计算为基础的游戏方式,在云游戏的运行模式下,所有游戏都在服务器端运行,并将渲染完毕后的游戏画面压缩后通过网络传送给用户。在客户端,用户的游戏设备不需要任何高端处理器和显卡,只需要视频解压缩能力就可以了。

在线游戏行业千亿市场,各行业巨头在云游戏方向重兵投入。今年三月谷歌的云游戏平台Stadia正式登场,并计划于11月在全球多地上线。Microsoft正在积极筹备进行先期测试,Sony也在进一步加强云游戏服务能力。腾讯已投入布局START云游戏平台,并在今年4-5月间正式开启了Start内测预约。如果腾讯的云游戏服务能够成功的话,将会对国内游戏行业产生极为深远的影响。

云游戏商业化面临的一个挑战是它的高成本。这里我们有一个大致的成本拆分。我们可以看到拆分之下,最大一块成本来自于带宽 34%,其次是GPU 27%. 为了推动云游戏商业化,相关业务部门在2020年里希望可以将成本降低一半。在之后的每一年还会有更多的成比例的成本下降。而在2020年里带宽成本计划下降67%, 这其中绝大部分会来自于视频编码器的优化。

这里简单罗列了一些我们已经和正在使用的视频编解码器优化策略,包括:启用更高效率编解码格式,对硬件编码器进行优化:针对不同游戏场景优化编码工具集使用,同时支持多格式软件硬件编码器并根据内容和分辨率进行切换,动态编码码率策略,ROI编码和网络自适应编码技术,硬件解码渲染一体化,等。在过去的几个月里,我们针对nvidia, intel, amd, android, iOS 等硬件平台和编解码器分别做了优化,达到节省约30%带宽。尤其是硬件解码和渲染一体化,很大程度降低了解码端延迟和功耗。

我们正在进入5G时代。5G网络提供给我们超强的带宽,超低的延迟,使得更多的应用触手可及,也使得万物互联成为可能。在5G的影响下,媒体内容的生产,获取和传播方式都在发生变化。无论是4K/8K,还是VR/AR/MR/点云,这些在过去因为受限于网络带宽的应用,在5G的推动下可能会迎来突破。而5G的低延迟特性还将触及医疗和其他一些倚赖高速连接和互动的领域,例如远程手术和自动驾驶。

在超高清视频方面,带宽的占用随视频分辨率,bitdepth和帧率等指标的提升成倍增长。互联网流量数据显示,在2017年标清和高清视频内容大约各占一半。在2019年也就是目前标清内容占比下降到大约1/3, 高清内容成为主流,超高清内容占比开始攀升。到2022年我们预计超高清内容占比会进一步提升到约总流量的1/4. 超高清视频内容的压缩,对于视频编解码器的质量和性能都有更高的要求。

互动沉浸式媒体是又一个被5G强推动的领域。根据中国产业信息网,中国VR内容市场自2016年以来持续以每年2-3倍的速度增长。应用产业链迅速扩展,尤其是在亚太地区发展更为迅猛。互动沉浸式媒体的应用领域非常广泛,渗透到例如文旅,教育,影视和泛娱乐,安全,零售等很多垂直行业。在今年九月腾讯推出的一部手机游云南里就包含了VR导览这一元素。

一个高质量高效率的互动VR系统包含了从采集拼接,处理,压缩,传输,到解压缩,后处理,渲染和交互等端到端多个技术模块。里面包含的技术有投影技术,采集拼接技术,FOV技术,自适应传输技术(包括Tile 切块,自适应码率,自适应分辨率,自适应主客观质量等)涉及的传输协议有HLS, DASH, WebRTC等。因为VR视频占用的带宽可能高达普通高清视频带宽的几十倍,高效率的VR视频编解码器即使在5G时代也仍然是必须的。

在万物互联的5G时代,媒体的智能化已经成为不可阻挡的趋势和发展方向,人工智能技术成为媒体融合重要的技术手段和工具。在不久前的十一庆典中,腾讯多媒体实验室联合腾讯视频和腾讯云推出的AI智能云剪辑,在最短时间内将月饼盛典中精彩片段进行拆分和剪辑。腾讯多媒体实验室和腾讯云正在研发的智能场记解决方案,旨在运用深度学习技术结合信号处理理论,对视频内容进行高级语义理解,并已经在体育赛事等场景取得阶段性成果。

最后我想用半分钟时间简单介绍一下腾讯多媒体实验室。

作为腾讯云的一个重要技术输出方和亲密合作伙伴,腾讯多媒体实验室专注于多媒体和相关领域的前沿技术探索、研发和产品落地,包含音视频编解码、网络传输和实时通信,基于信号处理和深度学习的多媒体内容分析、理解、处理和质量评估,沉浸式媒体(VR、AR、点云等)系统设计和端到端解决方案;同时负责国际国内行业标准制定,包含多媒体数据压缩,网络传输协议,多媒体系统和开源平台等。

面向未来,我们将一如既往地以技术为本,以客户需求为导向,和腾讯云一起打造更多更好的产品,服务于社会。

谢谢大家。