Page 20 - BP_201807
P. 20
本期关注
Focus
挖一挖那些隐藏的人工智能
在我们进入人工智能世界时,优化内容制备、分发、安全和呈现
的新概念和理论正在涌现,更有前途的是基于AI和机器学习的
下一代高度直观网络,它将对OTT视频流媒体产生重大的积极影
响,促进其接受和发展,并且增强内容安全。
扫一扫随身阅读
一.缓存和停格让我被迫放弃你 智能(A I)和机器学习的新技术概念 现基于感知视频质量的“内容感知”编
视频技术发展迅猛,从模拟标清 中。麻省理工学院的计算机科学和人工 码。机器学习算法可以根据屏幕尺寸和
(SD)黑白电视发展到流式传输到无数 智能实验室(C S A I L)开发了冥想盆 拟适用于某屏幕尺寸的目标感知质量决
连接设备的O T T数字高清(H D)。尽 (Pensieve)神经网络——一种利用机 定编码参数。例如,为了在两个不同尺
管流媒体视频服务已经相当普及,但终 器学习,根据网络条件选择不同的现有 寸屏幕上有相同的感知质量,一个屏幕
端用户还是不可避免地会遇到各种意外 算法(如基于速率的算法、基于缓存的 要求的位数可能远远少于另一个。机器
的缓冲问题。即便你的带宽已经远远满 算法)的AI系统。冥想盆神经网络提前 学习能够帮助我们即时执行此工作,从
足需求,当前仍没有切实的解决方案。 预测连接问题,并且预先调整流媒体分 而降低带宽消耗,节省成本。
根据思科最新的视频联网指数,到 辨率以产生足够的播放缓存,实现无缓
2021年视频流量将占全部互联网流量的 存的用户体验。 四.AI超越了专业“唇读员”
82%,比2016年的73%上升9%。此外, 事实上,这种方式没有完全消除缓 AI和机器学习能够为长期存在的动
思科CEO罗卓克预测2020年每小时将有 存,但将有助于减小缓存,使我们离无 态检测音像同步挑战和隐含字幕(CC)
100万设备加入网络。O T T流媒体最大 缓存视频流式传输更进一步。利用冥想 文字同步问题提供有效的解决方案,如
的挑战是提供最高的体验质量(Q o E) 盆神经网络的现场试验导致再缓存减少 果没有它们,则需要用眼睛观测或采用
和服务质量(QoS)。 最高30%,增加关键的QoE高达25%。不 侵入探测方式(如在基带视频(S D I)
过,由于可用于训练冥想盆神经网络的 和音频内插入水印或指纹)。
综合数据越来越多,将始终存在进一步 牛津大学计算机科学系完成的试验
提高的空间。 使用一个被称为LipNet的AI系统,能够
以93.4%的准确度识别词语,而专业人
三.机器人学习降低总视频延迟和 士只能达到52.3%。谷歌DeepMind(深
编码成本 度思维)项目完成的类似测试表明,AI
视频流式传输也能受益于机器学 很容易超越试图解译200个随机片段数据
根据马萨诸塞大学R a m e s h K. 习技术的发展。YouTube和Netflix采 集的专业唇读员。AI成功解译全部词语
Sitarman发表的一篇论文,观众开始放 用机器学习动态优化编码参数。这不 的46.8%,而专业唇读者只有12.4%。采
弃2秒后才能观看的视频。缓存和停格可 仅提高Q o E,而且减少要达到相同质量 用AI和机器学习检测音像同步和CC文字
能产生不好的用户体验和数字广告收入 所需的比特数。利用机器学习的编码 同步问题的产品正在市场上出现。一种
损失。为最小化缓存,使用了自适应码 优化还有助于以较低带宽利用的形式优 产品是Multicoreware公司的LipSync,
率(ABR)流传输,根据需要和带宽波 化成本。它还将降低以前用于人工优化 它用AI和深度学习跟踪嘴唇的运动,测
动转换码率。 的工程资源。在Y o u T u b e的情况中, 量音视频同步。B&P
ABR概念解决部分OTT流媒体的挑 神经网络(N N)被用于动态预测视频
战,但考虑到移动用户位置和连接的动态 编码量化等级(Q L),能够产生目标
变化,ABR无法完全消除移动手持设备 码率,并实现一次通过中的双通编码性
上的再缓存和停格,因此为使再缓存成为 能。因此,它将降低总视频延迟和编码
过去,需要更多的解决措施。此外,其它 成本。
像快进快退这样的复杂性也往往导致播放 由于不同屏幕尺寸可能在感知视
很卡,产生不好的用户体验。 频质量上产生很大差异,连接设备的可
用性(从手机到大屏电视机)产生种种
二.“冥想盆(Pensieve)”隐藏 挑战。考虑到静态编码方式没有把屏幕
的人工智能(AI) 尺寸和场景复杂性纳入计算,它们的成
这些挑战的应对方案隐藏于人工 本效益不高。机器学习算法可被用于实
WWW.IMASCHINA.COM
20