首页 > 创新探索

播出系统音频水印技术应用分析

新闻来源:中央电视台 2016年11月18日 15:44 浏览次数:10525

----------------------------------------------------

  计算机网络的高速发展与普及,带来了前所未有的信息冲击,尤其在媒体应用方面,人们可以足不出户获取大量新闻资讯信息,也可以随时随地观看喜爱的电视、电影,收听广播、音乐等。在信息传播过程中,不可避免地逐渐暴露出数据安全与保护的问题。特定数据信息的版权、防篡改、防抵赖问题,促使了数字水印技术的出现和发展。

  在广播电视领域,数字水印技术原本用于对节目的合法性、版权进行监测管理,防止出现非法攻击、版权侵犯等行为。伴随移动互联网技术的发展应用,掌上智能终端逐渐普及,人们越来越愿意将时间花费在手机等“小屏幕”上,因此如何实现屏幕扩展,充分利用电视“大屏幕”的吸引力,与“小屏幕”的优势相结合,创造出新的观看体验,成为了电视从业者关注和研究的方向。近年来国内外各电视媒体陆续开始在节目中尝试应用音频水印技术,在不影响电视节目的收看收听效果的前提下,将特定信息嵌入到节目音频中,观众用户通过智能终端检测水印信息,参与节目实时互动。

  一 音频水印技术应用发展情况

  通过音频水印技术应用,电视用户可以通过手机、PAD参与节目、广告的互动。利用节目的吸引力,在节目、广告播放过程中设置易于操作互动的环节,可以对节目冠名品牌等进行曝光宣传,对节目内容进行关联扩展(如背景介绍、字幕显示、信息分析等),与观众进行抽奖等游戏互动,对当前播出的广告商品进行产品介绍或商品链接,甚至对用户观看电视的时间、时长等习惯形成大数据。总的来说,既可以提升观众对节目内容的关注度,又拓展了电视台广告业务的新方向,为广告商提供创新性质的投放渠道,甚至直接转化为用户消费行为。

  国际上英国Channel 4、法国M6、美国华纳兄弟、日本wowow等电视媒体,以及国内的《中国好声音》《蒙面歌王》等一系列优秀电视节目也开始了这方面的尝试,实现以节目为依托,利用互动将观众效应最大化,增加用户粘性,促成关注聚焦。通过新颖有趣的玩法,与节目形式实时精准互动,高度契合,形成更有效的传播。

  相比较传统扫描二维码的方式,应用音频水印技术参与互动,用户不用靠近电视屏幕,使用手机对准二维码扫描,而只需手机摇一摇即可,如图1所示,在操作上更加简便,使用户体验更加人性化。对于未来广阔的应用前景,音频水印技术在与电视节目内容相关的应用,已成为越来越重要的研究领域。

图1:电视台音频水印应用示意图

图1:电视台音频水印应用示意图

  二 音频水印技术要求

  在电视互动应用中,为保证用户获得良好的使用体验,音频水印技术应满足数据量与可读性、鲁棒性、不可察觉性要求。

  1. 数据量与可读性

  由于用户终端接收水印信息时,仅仅获知是否有水印标记是不够的,还需要明确互动方式和内容,尤其是广告投放性质的互动,如购买某个商品的链接或广告等等,不同时段和栏目的投放点所代表的经济价格和责任是不同的。因此水印信息的数据量大小与可读性至关重要,数据量大小一方面影响原有音频的收听效果,是否具有不可觉察性,另一方面是否符合鲁棒性需求,在传输过程中不受影响。可读性是指在用户终端获取音频水印信息时,需提取所携带的目标长度的bit位信息,获取完整ID,以在终端匹配相应的互动方式与内容。

  2. 鲁棒性

  由于电视信号从电视台播出系统到用户机顶盒,尤其全国上星播出的节目,中间经历数模转换、噪声滤波干扰、多次转码、压缩编解码、音频下混处理等,而各地运营商所使用的处理方式也不尽相同,因此播出链路设备的水印嵌入需具有十分良好的鲁棒性,避免水印在传输链路中被破坏,保证各地观众都能正常接收检测水印。鲁棒性是指嵌入水印的音频信息在接收时,与原始音频信息有差异时,终端仍然尽可能地从中检测出完整ID信息。

  3. 不可察觉性

  为保持节目的原有效果,嵌入水印后不应对观众的主观感受产生差别,这是音频水印最基本的要求,尽可能在人的感官上保留节目音频的原有特征。如果水印添加后主观评测显示出较大的音频质量损伤,或可明显感知,该节目音频则失去播出效果与价值,因此音频水印应具有不可察觉性。

  考虑节目在不同频道、不同时段重播时,对节目互动的需求并不完全一致,如果在节目文件制作时将数字水印嵌入,将导致节目跨频道或重播时失去互动的灵活性、时效性。播出系统在线添加音频水印,能够实现同一节目在不同频道、不同时段播出时,根据事先的编排计划,采取任意互动方式与内容。考虑系统建设维护,用户在水印识别、提取操作的便利与容错等方面因素,使用音频水印能够支持Android、iOS终端操作系统应用,并且对软硬件的处理能力要求低,不需要设计建立复杂的后台支持系统,终端从节目音频中提取ID进行互动匹配,避免大量用户同时访问后台压力。

  观众在收看电视节目的同时,可以通过手机APP获取节目中的音频水印信息,该信息与特定互动方式相关联,如广告链接、参与抽奖等,因此音频水印应能够标识定位当前播出的节目内容,利用人耳掩蔽效应,携带能够唯一对应互动内容的信息。如图2所示,嵌在节目声音信号中的水印,前10bit用于标识频道或节目,后10bit用于标识该节目时间线,即在该节目任意时间点,可设计任意不同的互动效果。水印的bit位长度将决定卸载信息量大小,互动方式的多样性,也决定检测一个完整水印所需的时间长度。 

图2:音频水印信息说明

图2:音频水印信息说明

  三 节目中嵌入音频水印的方式

  按照不同处理方式及业务,在节目中嵌入音频水印的方式有两种,一是在播出系统中增加通路设备受控在播出信号中实时处理,另一种方式是在节目制作过程中离线添加生成。一般情况下,使用后者文件级水印添加方式,将带来以下两个问题:效率方面,文件级嵌入将带来额外的时间开销,视音频分离的MXF OPAtom音频文件效率可达到30倍速,1小时节目文件需2分钟左右,MXF Op1a则只能达到2倍速,1小时节目文件需30分钟左右。通过提高硬件配置及相关优化调试能够提高效率,但相比播出信号级方式的实时性,其代价时间开销仍然不可忽视,尤其对于时间紧急的直送文件节目,生产效率大为降低的同时,甚至影响正常送播,成为播出安全隐患。合理性方面,播出信号级方式的优势在于针对同一节目不同频道、不同时段的播出,可以灵活掌握嵌入信息,设计不同互动方式与内容,例如同一部电视剧在不同频道播出时,可根据频道定位特点或广告出售情况,观众可参与互动发生变化,如投票、抽奖或投放不同广告。然而文件级方式一旦嵌入水印信息,需要变更时,不同频道播出则需制作不同版本节目文件,重播时则需进行出库修改,带来不必要的生产资源开销与浪费。因此,采用播出信号级音频水印嵌入方式,在效率与合理性方面是更优的选择。 

  通路中采用播出级嵌入设备,通过以太网方式接收控制机命令,对输入的SDI信号进行音频水印嵌入,使电视节目变为可识别水印的节目。因此在播出系统添加音频水印嵌入设备,如图3所示,应在响度控制器之后,下变换器之前。考虑音频水印信号在经过响度控制器后,对信号波形产生影响,从而可能对水印的检测效果产生影响,将嵌入设备取在下变换之前,可以同时保持高标清链路的水印效果,在部署方式上更加经济。

图3:音频水印嵌入设备部署链路

图3:音频水印嵌入设备部署链路

  四 技术应用功能及性能分析

  在视音频接口特性上,需符合GY/T 155-2000《高清晰度电视节目制作及交换用视频参数值》和GY/T 157-2000《演播室高清晰度电视数字视频信号接口》的要求。同时,结合目前播出系统特点,还需考虑设备延时、AFD通过性等需求。

  1. 接口特性指标

 接口指标测试结果如表1所示。

接口指标测试结果如表1所示。

  2. 业务功能及性能

  硬件功能方面,作为播出级产品,应满足如下需求:设备双电源,掉电及直通,监控报警上传、分声道嵌入、下混及压缩编码不受破坏、可修改水印、设备延时固定、AFD通过、网络控制等。

  不同bit位长度所负载信息量和检测时间不同,从错误检测和数据完整性角度考虑,bit位长度定义为4的整数倍。20bit长度水印即可产生100万个不重复互动ID。经测试,20bit长度水印在使用APP进行检测时,所需时间为4.8秒。

  考虑随着电视台内音频水印的推广进度,需要做互动添加水印的节目、互动的种类将呈现逐渐增长的过程,而这一过程也无法准确预测。另一方面,单个水印的信息量大小又将影响观众APP的检测时间。因此从技术角度出发,希望在电视台嵌入端根据水印在节目部门的推广情况,逐渐增大bit位,使互动效果与用户检测时间之间总是保持平衡最优。客户端APP需根据电视声音信号中的水印信息,自动检测匹配bit位长度,避免手动操作或更新APP。然而经过实际测试,目标还无法支持bit位长度动态自适应检测,如表2所示,因此需在设计阶段充分考虑业务应用及扩展能力,确定最符合需求的bit位长度。

  

  在节目播出过程中,水印信息将随着节目的变化而不断改变,因此在水印变化的切换点前后,如果观众进行了互动操作,所检测的ID信息是否准确,将影响用户体验。通过对节目音频连续分别嵌入ID值为“1089”、 “2154”的水印,使用手机APP在水印切换前3秒进行检测,检测结果如表3所示,即水印切换时检测结果为切换后的水印ID,响应时间为一个完整水印检测周期+切换前的检测时长。从业务角度分析,用户实际操作是在切换前,期望的是本节目互动,应在发现水印切换且未完成检测时,放弃此次检测,并报出检测失败,而非给出下一个节目的互动。产品在这方面的特点,要求在系统控制时,避免嵌入不完整ID序列。

  在得到检测的基本响应时间后,还需针对不同节目形态所具有的,声音连续性与音量大小起伏的不同,再做针对性的测试,表4即是选取了歌唱类、动画类、电视剧类、体育类、新闻类以及广告类节目,通过在节目中连续嵌入20bit水印,人工使用手机APP进行随机检测,检测时间超过15秒则判定为漏检。测试发现由于电视剧类节目无声音的场景较为频繁,其检测结果校其他节目形态差,有20%左右的漏检率,而歌唱类、体育类及广告类节目由于其节目形态具有声音连续且起伏不断的特点,水印掩蔽嵌入效果较好。针对这种情况,一方面需要产品加强嵌入检测能力,同时对不同节目形态在应用水印技术时,也要有所注意,避免将水印加在无声音或声音不连续的时段。

  

  由于使用掩蔽效应在节目声中嵌入音频水印,节目声与环境声的相对大小关系,将实际影响终端检测水印的响应能力,即响应时间的大小。通过模拟三种不同收看环境场景,可获知影响关系。使用APP手动操作触发检测100次,记录20bit长度的水印信息检测每次响应的时间,可得出平均响应时间及分布关系。首先模拟用户在家收看节目的常规场景,即节目声在环境中可清晰分辨,一般比环境噪声高10dBA左右,如图4所示,此时检测的平均响应时间为4.8秒,其中4.1秒以下有2次,4.1秒至4.4秒有6次,4.4秒至4.7秒23次,4.7秒至5.0秒36次,5.0秒至5.3秒31次,5.3秒至5.6秒1次,5.6秒至5.9秒1次。可以看到,响应时间大小相对比较集中,每次检测差异不大,基本围绕平均时间4.8秒左右小量波动。

图4:节目声在环境中可清晰分辨的检测响应时间直方图

图4:节目声在环境中可清晰分辨的检测响应时间直方图

  当我们提高节目音量或使测试环境更安静,即在节目声显著高于环境噪声的场景中,如图5所示,平均响应时间为4.8秒,其中4.1秒以下有3次,4.1秒至4.4秒有5次,4.4秒至4.7秒23次,4.7秒至5.0秒38次,5.0秒至5.3秒31次。此时检测结果并未显著提升响应能力,每次检测的波动大小也与上一场景基本一致,可以确认20bit长度水印信息的常规响应时间为4.8秒。

图5节目声显著高于环境噪声的检测响应时间直方图

图5:节目声显著高于环境噪声的检测响应时间直方图

  当我们降低节目音量或使测试环境更嘈杂,即在节目声在环境中只可模糊分辨的场景中,如图5所示,平均响应时间为5.8秒,其中4.4秒以下有3次, 4.4秒至4.7秒11次,4.7秒至5.0秒29次,5.0秒至5.3秒20次,5.0秒至13.7秒之间分布出现了30次,还有7次超过15秒。这种情况下表现出了水印检测响应能力的降低,影响用户的操作体验。

图6:节目声在环境中可模糊分辨的检测响应时间直方图

图6:节目声在环境中可模糊分辨的检测响应时间直方图

  从上述结果可以看出,在节目可清晰分辨的情况下,20bit水印配置的平均响应时间约4.8秒。观众收看节目时所选择音量大小与环境噪声相差越小,响应检测效果越差。在节目所选择声音大小相对环境噪声可分辨但音量偏小时,平均响应时间约5.8秒。节目音量与环境声音相差越明显,响应时间的测试方差越大。尽管如此,只要保持观看电视节目时的常规音量大小,用户就能获得较为理想的互动响应体验。

  五 总结

  播出系统音频水印技术应用,能够满足实时性、数据量与可读性、鲁棒性、不可察觉性等方面要求,是观众参与电视互动的有力手段。随着更多节目形态产生互动、推广等方面的需求,智能终端硬件水平的提升,以及优秀客户端APP所提供的用户入口,音频水印技术的推广应用将更加广泛。  

  (作者为中央电视台 播出传送中心 郭敏)

上一篇: 《体育咖吧》——冷门时段的热评论
下一篇: 传播成长正能量 培育核心价值观

央视广告套餐超值价格1.8w,火速来购!

联系我们 了解详情
© 2011-2020 CCTV央视广告服务平台 京ICP备11011491号-5