Page 20 - BP_201807
P. 20

本期关注
               Focus




           挖一挖那些隐藏的人工智能



           在我们进入人工智能世界时,优化内容制备、分发、安全和呈现
           的新概念和理论正在涌现,更有前途的是基于AI和机器学习的
           下一代高度直观网络,它将对OTT视频流媒体产生重大的积极影
           响,促进其接受和发展,并且增强内容安全。

                                                                 扫一扫随身阅读
           一.缓存和停格让我被迫放弃你                    智能(A I)和机器学习的新技术概念                 现基于感知视频质量的“内容感知”编
               视频技术发展迅猛,从模拟标清                中。麻省理工学院的计算机科学和人工                  码。机器学习算法可以根据屏幕尺寸和
           (SD)黑白电视发展到流式传输到无数                智能实验室(C S A I L)开发了冥想盆             拟适用于某屏幕尺寸的目标感知质量决
           连接设备的O T T数字高清(H D)。尽             (Pensieve)神经网络——一种利用机              定编码参数。例如,为了在两个不同尺
           管流媒体视频服务已经相当普及,但终                 器学习,根据网络条件选择不同的现有                  寸屏幕上有相同的感知质量,一个屏幕
           端用户还是不可避免地会遇到各种意外                 算法(如基于速率的算法、基于缓存的                  要求的位数可能远远少于另一个。机器
           的缓冲问题。即便你的带宽已经远远满                 算法)的AI系统。冥想盆神经网络提前                 学习能够帮助我们即时执行此工作,从
           足需求,当前仍没有切实的解决方案。                 预测连接问题,并且预先调整流媒体分                  而降低带宽消耗,节省成本。
               根据思科最新的视频联网指数,到               辨率以产生足够的播放缓存,实现无缓
           2021年视频流量将占全部互联网流量的               存的用户体验。                            四.AI超越了专业“唇读员”
           82%,比2016年的73%上升9%。此外,                事实上,这种方式没有完全消除缓                   AI和机器学习能够为长期存在的动
           思科CEO罗卓克预测2020年每小时将有              存,但将有助于减小缓存,使我们离无                  态检测音像同步挑战和隐含字幕(CC)
           100万设备加入网络。O T T流媒体最大             缓存视频流式传输更进一步。利用冥想                  文字同步问题提供有效的解决方案,如
           的挑战是提供最高的体验质量(Q o E)              盆神经网络的现场试验导致再缓存减少                  果没有它们,则需要用眼睛观测或采用
           和服务质量(QoS)。                       最高30%,增加关键的QoE高达25%。不              侵入探测方式(如在基带视频(S D I)
                                             过,由于可用于训练冥想盆神经网络的                  和音频内插入水印或指纹)。
                                             综合数据越来越多,将始终存在进一步                     牛津大学计算机科学系完成的试验
                                             提高的空间。                             使用一个被称为LipNet的AI系统,能够
                                                                                以93.4%的准确度识别词语,而专业人
                                             三.机器人学习降低总视频延迟和                    士只能达到52.3%。谷歌DeepMind(深
                                             编码成本                               度思维)项目完成的类似测试表明,AI
                                                 视频流式传输也能受益于机器学                 很容易超越试图解译200个随机片段数据
               根据马萨诸塞大学R a m e s h  K.       习技术的发展。YouTube和Netflix采            集的专业唇读员。AI成功解译全部词语
           Sitarman发表的一篇论文,观众开始放             用机器学习动态优化编码参数。这不                   的46.8%,而专业唇读者只有12.4%。采
           弃2秒后才能观看的视频。缓存和停格可                仅提高Q o E,而且减少要达到相同质量               用AI和机器学习检测音像同步和CC文字
           能产生不好的用户体验和数字广告收入                 所需的比特数。利用机器学习的编码                   同步问题的产品正在市场上出现。一种
           损失。为最小化缓存,使用了自适应码                 优化还有助于以较低带宽利用的形式优                  产品是Multicoreware公司的LipSync,
           率(ABR)流传输,根据需要和带宽波                化成本。它还将降低以前用于人工优化                  它用AI和深度学习跟踪嘴唇的运动,测
           动转换码率。                            的工程资源。在Y o u T u b e的情况中,          量音视频同步。B&P
               ABR概念解决部分OTT流媒体的挑             神经网络(N N)被用于动态预测视频
           战,但考虑到移动用户位置和连接的动态                编码量化等级(Q L),能够产生目标
           变化,ABR无法完全消除移动手持设备                码率,并实现一次通过中的双通编码性
           上的再缓存和停格,因此为使再缓存成为                能。因此,它将降低总视频延迟和编码
           过去,需要更多的解决措施。此外,其它                成本。
           像快进快退这样的复杂性也往往导致播放                    由于不同屏幕尺寸可能在感知视
           很卡,产生不好的用户体验。                     频质量上产生很大差异,连接设备的可
                                             用性(从手机到大屏电视机)产生种种
           二.“冥想盆(Pensieve)”隐藏               挑战。考虑到静态编码方式没有把屏幕
           的人工智能(AI)                         尺寸和场景复杂性纳入计算,它们的成
               这些挑战的应对方案隐藏于人工                本效益不高。机器学习算法可被用于实
     WWW.IMASCHINA.COM

        20
   15   16   17   18   19   20   21   22   23   24   25