Page 55 - BP_202102
P. 55
广电宏观
Overlook
基于视频比对和
网络爬虫技术的版权维权研究与探索
扫一扫随身阅读
吴梦霞 针对以上的问题,本文探索自主研发媒资影像资料版
重庆广播电视集团(总台) 权维权系统,以人工智能爬虫、视频比对和区块链存证三
个核心技术为基础打造的版权维权系统。系统主要通过人
【摘要】 随着广电媒资(MAM)影像资料内部和外 工智能爬虫对互联网网站进行递归式查找和搜索,并通过
部使用量的急剧增长,随之而来的版权被侵权问题日益凸 和广电内部媒资库进行视频比对来进行侵权界定,确认侵
显——互联网(新媒体)公司未经版权授权,擅自在各种平 权后采用区块链技术进行证据固化。这样全自动化、24小
台使用,给版权管理和开发工作带来很大的影响。原有传统的 时不间断的人工智能检索和确权,大幅度提升了日常维权
人工维权方式在互联网信息海量的状况下,显得效率极其低 的能力和手段,为实现媒资资料规范化管理和维权,以及
下,本文探索以人工智能爬虫、视频比对和区块链存证三个 后期媒资媒体融合开发、拓展奠定了技术基础。
核心技术为基础打造的版权维权系统。
【关键词】媒资(MAM) 确权 数据采集 区块链 二.关键技术点
(Blockchain) 网络爬虫(General Purpose Web ·区块链存证
Crawler) 视频比对(visual comparision) 区块链具有去中心化、安全性高、永久存证、无限可
溯源和可编程扩展性强等特点,特别适合于知识产权领域
一.项目背景 应用。通过利用区块链技术实现证据信息的及时固化与存
全国各广电在媒资日常管理和对外开发中,随着媒资 证,并可在有需要的情况下,向受理公证处申请出具“存
内部和外部使用量的急剧增长,随之而来的版权被侵权问 证函”,所有的侵权情况报表记录在不可篡改的区块链
题日益凸显———外部互联网(新媒体)公司未经授权, 内,作为证据信息进行存证。
擅自在各种平台使用版权影像资料的情况大量出现。给媒 存证的内容不仅包含了比对结果,同时包括该视频
资管理和开发工作带来很大的影响:一是媒资资料被随意 在监控目标中的播放截图、展示名称、以及其他页面信息
改编、编排而歪曲媒资本身内容,造成一定程度上的不良 (根据监控目标的内容差异性,有所不同),形成完整的
传播;二是不受版权限制的媒资资料有被随意传播、泄露 取证证据链。
的风险;三是造成媒资资料价值的严重流失,给正规的媒 ·人工智能爬虫
资版权开发造成很大的冲击。 系统使用“聚焦爬虫”技术,并且加入了部分人工智能
原有传统的维权方式是等待被动告知侵权情况后,然 算法,进一步提升数据采集的准确性。这主要体现在爬虫对
后再进行人工网络筛查、比对、确权、取证等操作,在互 用户行为的模拟,以获取更接近人工操作的行为模式。
联网信息海量的状况下,显得效率极其低下。比如1-2媒资 一方面,根据侵权监测系统的待比对作品类型不同,
人员专职负责搜集和取证,每天仅能完成20~50个URL的 对于爬虫的采集规则进行了精确优化,使爬虫能够准确识
检索,比对和网络取证工作,这样的效率完全不能满足维 别主标题、副标题、摘要、作者、正文等信息,模拟用
权需要,搜集取证的速度还比不上侵权的增长速度,对媒 户在查阅内容时对不同关键信息的关注情况。另一方面,
资版权维权监控工作造成了很大困难。 对被采集的内容进行识别。将根据特定字、词组等关键信
息,完成数据采集,模拟用户对于特定内容的关注情况。
监控目标采集模块,即是用于在目标App、Web站点
中获取视频数据的采集工具。将根据实际的监控需求和源
视频的特点采用不同的策略完成采集工作。
·视频比对
视频比对技术是通过持续的数据采集,再根据源视
频,主要方式是截取关键帧,转换成特征值。然后爬虫爬
图1 区块链技术
取目标视频,对视频进行截图,并根据视频的尺寸和位置
55