[发明专利]一种端到端的新闻节目结构化方法有效
申请号: | 201910483232.X | 申请日: | 2019-06-04 |
公开(公告)号: | CN110012349B | 公开(公告)日: | 2019-09-20 |
发明(设计)人: | 王炜;温序铭;谢超平;李杰;严照宇;孙翔;罗明利 | 申请(专利权)人: | 成都索贝数码科技股份有限公司 |
主分类号: | H04N21/439 | 分类号: | H04N21/439;H04N21/44;H04N21/472;G06K9/20;G06K9/34;G10L15/26 |
代理公司: | 成都弘毅天承知识产权代理有限公司 51230 | 代理人: | 蒋秀清 |
地址: | 610041 四*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 新闻节目 结构化 模态 层级 基础信息 框架体系 视频资源 音频资源 语义主题 输出 文字识别技术 语音识别技术 预处理 场景标记 场景检测 二次利用 明确语义 提取算法 语义 时效性 融合 聚类 算法 聚合 场景 分割 | ||
本发明公开了一种端到端的新闻节目结构化方法及其结构化框架体系,涉及新闻节目处理技术领域,本发明的方法包括对输入的新闻节目进行预处理,获取新闻节目的音频资源和视频资源;利用ASR语音识别技术、OCR文字识别技术和Shot Detection技术提取音频资源和视频资源内的基础信息;基于提取的基础信息,提取各模态的语义主题信息,并采用跨模态的主题融合提取算法,对各模态的语义主题信息进行融合聚类,输出Scene主题;同时进行跨模态场景检测,输出Scene层级;利用CRF场景标记算法对得到的Scene层级和Scene主题进行场景聚合和分割,输出具有相同语义的Story层级和Story主题,本发明重点关注具有明确语义含义的Story层和Scene层,便于新闻节目二次利用,提高了新闻节目的使用时效性。
技术领域
本发明涉及新闻节目处理技术领域,更具体的是涉及一种端到端的新闻节目结构化方法及其结构化框架体系。
背景技术
随着时代的发展,技术的进步,视频的索引和检索是个重要的问题,并且具有重大意义。而电视新闻是视频中的一大部分,也是会被反复多次利用的视频。如电视新闻播出后的点播,需要将电视新闻流分段,然后再对每段电视新闻流进行元数据标注,从而快速进行索引和访问;电视新闻节目作为一种素材再次被利用,用作其他新闻节目的编辑材料,往往再次利用的是新闻的有价值片段,也需要将电视新闻流按照电视新闻结构进行分解,并对有利用价值的片段进行标注。
新闻视频是视频的一种重要分支,他们包含着大量的有用信息,基于内容的视频检索系统指通过文本、图片或视频的其他特征在视频集中搜索需要的信息。
一档新闻节目一般包括片头、主要内容介绍、新闻报道、天气预报及片尾,对于点播而言,需求则是对新闻报道(Story)这一层级进行索引和访问,对于作为素材再次利用即二次编辑而言,需求则是对Scene这一层级进行索引和访问;面对当前不断增加的海量新闻视频内容,使用原人工的方法进行新闻流分段和标注已经不可行,新闻节目的访问和二次编辑需要的实时性也得不到满足。
发明内容
本发明的目的在于:为了解决使用原人工的方法进行不断增加的海量新闻流的分段和标注,新闻节目的访问和二次编辑的实时性得不到满足的问题,本发明提供一种端到端的新闻节目结构化方法及其结构化框架体系,综合了新闻语法、视觉特征、音频特征、文本语义等跨模态信息,融合采用计算机视觉、机器学习、自然语言处理等多种人工智能技术,一次性实现了新闻节目的Scene层级和Story层级结构切分和核心元数据自动描述。
本发明为了实现上述目的具体采用以下技术方案:
一种端到端的新闻节目结构化方法,包括如下步骤:
S1:对输入的新闻节目进行预处理,分别获取新闻节目的音频资源和视频资源;
S2:利用ASR语音识别技术、OCR文字识别技术和镜头检测技术提取音频资源和视频资源内的基础信息;
S3:基于S2提取的基础信息,提取各模态的语义主题信息,同时进行跨模态场景检测,并采用跨模态的主题融合提取算法,对各模态的语义主题信息进行融合聚类,输出Scene主题和输出Scene层级;
S4:利用CRF场景标记算法对S3中得到的Scene层级和Scene主题进行场景聚合和分割,输出具有相同语义的Story层级和Story主题。
进一步的,所述S2中对音频资源进行基础信息分析包括:
基于MFCCs音频特征的语音判定分析技术,识别音频资源的声音信息,通过音频特征分析判定语音播报的停顿间隔,音频的停顿间隔时间点将用于后续场景检测;
通过ASR语音识别技术将音频资源的语音内容转化为文本内容,新闻节目中播音员的语音播报内容对于理解新闻节目语义含义、元数据提取都非常重要,因此语音识别技术的分析工作是基础分析工作。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都索贝数码科技股份有限公司,未经成都索贝数码科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910483232.X/2.html,转载请声明来源钻瓜专利网。