Page 22 - BP_202102
P. 22
视觉文本识别、压缩和重影假象、响度和语言检测。 通过ML确保高质量字幕
随着ML的兴起,以及ML成功完成了内容分类、对象 检查字幕的存在和准确性是ML被证明非常有效的另一
检测等任务,媒体质量监控的范围也随之扩大。现在广播公 个应用领域。ML可用于在内容中没有字幕的情况下自动生
司正在使用能够从语义上理解内容的先进ML技术,以达到 成字幕,检查字幕和音频之间的对准,并检查字幕对口语
内容审核、内容分类、检索和描述生成的目的。让我们看看 音频的正确性。此外,ML简化了对音频中发声者的识别,
几个可以用ML和AI技术进行优化的专门媒体应用场景。 确保在字幕中放置正确的标点。
最终,使用ML,广播公司可以加快直播和VOD内容
用ML加速内容合规
的字幕创作和验证过程,同时确保内容在OTT视频流中以
监视和修改内容以符合不同的规章制度是大大受益于
多种视频质量水平分发时,字幕保持高质量。
ML的一项应用。广播公司必须遵守各种各样的规章,这些
在过去的十年里,通过ML,自动语音识别引擎达到了
规章可能因地区而异。
高达85%的极高准确度。尽管如此,自动语音引擎依然面
传统上,广播公司会维持一群审查员员手动过滤内
临着一些挑战,如嘈杂环境中的稳健性问题、变异口音处
容,以符合监管规定。在典型的手工工作流程中,内容要
理能力、多名发言者同时说话时的问题,以及小孩声音的
经过多个审查阶段。如果评审在任何阶段失败,内容就会
困难(由于缺乏数据训练ML模型)。
返回进行编辑。手工内容的质量监控是昂贵、费时和不准
要解决这些挑战,必须让人类参与其中。广播公司通
确的。由于有如此多的全球性和区域性的内容审查环节,
过将先进的ML和自动语音识别技术与人工审查过程相结
人类几乎不可能做到百分百的准确性。
合,可以为传统电视和视频流字幕的创建、管理和分发带
通过自动化这一过程,广播公司可以消除人工内容审
核的限制,包括人们无法记住大量的视觉符号和人为错误 来更大的简化和成本节约。
的可能性。有了自动化的质量监控工作流程,广播公司可
用ML消除AV音视频同步问题
以更快速和准确地检查节目内容,包括品牌名称、仇恨符
号、酒精、暴力、名人脸、粗俗言论字幕和宗教符号。 音频和视频之间的同步是当今的一个常见问题。利用
当使用由ML、计算机视觉技术和计算机算法驱动的自 图像处理、ML技术和深度神经网络,广播公司可以自动检
动化系统时,好处就更大了。基于ML的系统可以处理大量 测音频和视频同步错误。与手动检查音视频同步错误的传
和多个内容分类检查列表,而没有任何大的性能限制,从 统方法相比,ML提供了一种更快、更精确的检测媒体内容
而提高广播工作流程的效率。 中音频超前和滞后问题,使得广播公司能够为观众提供高
但是,需要注意的是,虽然当前的ML解决方案很先 质量的体验(QoE)。
进,并且可以组合起来创建更广泛的应用,但是它们缺乏 通过ML能力,广播公司可以进行人脸识别、人脸跟
自己创建有效和可接受的结果所需的真实世界的知识和人 踪、口型检测、唇动检测和语音识别。使用基于ML的音视
类经验。仍然需要人工输入来确认模式的有效性并帮助机
频同步解决方案,通常一个模块使用视频提取人脸和跟踪
器改进结果。在可预见的未来,这种人机交互很可能会定
唇动。第二个模块使用音频提取音频特性,第三个ML模块
义ML在媒体行业中的应用。
使唇动与音频特性匹配。使用
这种技术,甚至可以检测一帧
M/L和AI赋能的内容准备就绪 的同步问题。
音视频同步自动化检测 结论
边缘服务器
多片段ABI转码 视频分发 广播公司在全球分发的内
字幕自动化工作流程 容数量是巨大的。如果广播公
基于文件的自动化QC 副本服务器
司想让观众满意,确保每个屏
源服务器
内容分发 幕上都有高质量的视频体验是
转码器/ABR转码器
打包器/DRM
至关重要的。有了采用M L和
线性和OTT分发端到端监测
收录/编辑 AI技术的自动质量监控解决方
案,广播公司可以更快更准确
内容制备
直播 内容分类 地遵守行业和政府法规,提供
高质量的字幕,分类内容,并
合规和监督媒体分析
消除音视频同步问题。 B&P
22