Alby's blog

世上没有巧合,只有巧合的假象。

0%

关于音频切条的分析

一、概述

基于电视节目的特征,包括视觉特征、音频特征、文本特征、压缩域特征等,对新闻节目进行结构化分析,然后采用视频分割技术将连续的视频流分割为具有特定语义的多个小视频,这就是电视新闻拆条。经过拆条后的电视新闻节目,可以用于互动电视、OTT、互联网视频等多种应用场景,满足了新媒体行业对视听节目碎片化的要求。

如果仅有音频数据需对其拆条,就只能主要通过音频特征和通过语音识别出来的文本特征了。

拆条需求是能够拆节目,也能够拆节目里的片段。比如新闻联播和新闻联播里每一条新闻。对应命名为整档拆条片段拆条

二、哪些具体特征可用于辅助拆条?

拆条的本质是整档节目或节目的片段的开播时间和结束时间。

1、播出时段

某些节目在固定时段播出,比如新闻联播。对于这类节目可以限定开拆时间以减少运算量和减小误判率。对于片段来说,播出时段意义不大。

问题:

  1. 某些节目并没有固定播出时间。
  2. 固定时段开播的节目也可能超时。
  3. 如果是离线处理,有可能不知道音频是在什么时候播出的。

2、片头

节目一般都有相对固定的片头,有可能是纯音乐也可能是音乐和人声的混合。对于片段来说,几乎没有片头。

问题:

  1. 确实有些节目没有固定的片头。
  2. 依赖于片头识别的准确率。

3、关键字

通过语音识别(ASR)识别出音频的文本内容,再根据关键字匹配。可使用多个关键字组合判断。

问题:

  1. 非常依赖语音识别引擎的性能,包括准确率和运行速度等。
  2. 新闻里被采访人发音口音问题将降低识别率。
  3. 因为文本内容也可能不完全固定,所以还依赖于语法分析引擎的鲁棒性。

4、语法结构

主要用于片段的识别。

  1. 时间+地点结构。
1
2
3
4
八号零点到十四点 满洲里市...
昨天 江苏南京
12月7号 上海新增一轮
昨天零至24时,云南省
  1. 先读标题,然后再读详细内容。

比如《中国之声》的《新闻和报纸摘要》。


问题:

  1. 依赖语法分析引擎。
  2. 需要收集更多的语法结构。

5、声纹

某些节目有多位主播,在切换主播时通常片段也发生了切换。顺便能够判断是否包含背景音乐。

问题:

  1. 新闻内的采访将导致误判。
  2. 除非对主播的声纹进行标记。
  3. 就算对主播的声纹进行了标记,在读取详情的时候,同一条新闻里主播和被采访人的发声也有交叉。

片头识别也属于声纹范畴。

6、节目(片段)时长

对于识别到开始,在一定时长内没有识别到结束,就只能废弃该节目或片段。

三、确定开拆点(或完拆点)

在识别成功后不能马上开始剪切,要寻找真正的开拆点(或完拆点),有两种方式:

  1. 在当前位置之前或之后的静音来确定开拆点(或完拆点),可能是第一个也可能不是。问题是,依赖于静音判断的准确度。
  2. 在当前位置之前或之后的某个固定时长确定开拆点(或完拆点)。问题是,如果设置不准确将导致剪切不准确。

四、归档处理

1、拆条标题

能够根据内容生成一个标题。

2、拆条标签

能够根据内容生成多个标签。

五、容错

杜绝时政类内容差错,杜绝节目内容中断,杜绝标题错误,广告需完全去除。

六、音质导致的语音识别的问题

1. 夹杂其他语言,并且和主持人的发音重叠

比如:《新闻和报纸摘要》2021年12月13日 星期一,07:00:00-07:30:00,片段位置:25:34。

2. 被采访人方言口音严重