[发明专利]一种端到端的新闻节目结构化方法有效
申请号: | 201910483232.X | 申请日: | 2019-06-04 |
公开(公告)号: | CN110012349B | 公开(公告)日: | 2019-09-20 |
发明(设计)人: | 王炜;温序铭;谢超平;李杰;严照宇;孙翔;罗明利 | 申请(专利权)人: | 成都索贝数码科技股份有限公司 |
主分类号: | H04N21/439 | 分类号: | H04N21/439;H04N21/44;H04N21/472;G06K9/20;G06K9/34;G10L15/26 |
代理公司: | 成都弘毅天承知识产权代理有限公司 51230 | 代理人: | 蒋秀清 |
地址: | 610041 四*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种端到端的新闻节目结构化方法及其结构化框架体系,涉及新闻节目处理技术领域,本发明的方法包括对输入的新闻节目进行预处理,获取新闻节目的音频资源和视频资源;利用ASR语音识别技术、OCR文字识别技术和Shot Detection技术提取音频资源和视频资源内的基础信息;基于提取的基础信息,提取各模态的语义主题信息,并采用跨模态的主题融合提取算法,对各模态的语义主题信息进行融合聚类,输出Scene主题;同时进行跨模态场景检测,输出Scene层级;利用CRF场景标记算法对得到的Scene层级和Scene主题进行场景聚合和分割,输出具有相同语义的Story层级和Story主题,本发明重点关注具有明确语义含义的Story层和Scene层,便于新闻节目二次利用,提高了新闻节目的使用时效性。 | ||
搜索关键词: | 新闻节目 结构化 模态 层级 基础信息 框架体系 视频资源 音频资源 语义主题 输出 文字识别技术 语音识别技术 预处理 场景标记 场景检测 二次利用 明确语义 提取算法 语义 时效性 融合 聚类 算法 聚合 场景 分割 | ||
【主权项】:
1.一种端到端的新闻节目结构化方法,其特征在于,包括如下步骤:S1:对输入的新闻节目进行预处理,分别获取新闻节目的音频资源和视频资源;S2:利用ASR语音识别技术、OCR文字识别技术和镜头检测技术提取音频资源和视频资源内的基础信息;S3:基于S2提取的基础信息,提取各模态的语义主题信息,同时进行跨模态场景检测,并采用跨模态的主题融合提取算法,对各模态的语义主题信息进行融合聚类,输出Scene主题和输出Scene层级;S4:利用CRF场景标记算法对S3中得到的Scene层级和Scene主题进行场景聚合和分割,输出具有相同语义的Story层级和Story主题;其中,所述S2中对音频资源进行基础信息分析包括:基于MFCCs音频特征的语音判定分析技术,识别音频资源的声音信息,通过音频特征分析判定语音播报的停顿间隔;通过ASR语音识别技术将音频资源的语音内容转化为文本内容;所述S2中对视频资源进行基础信息分析包括:利用OCR文字识别技术对视频资源的文字部分进行文字识别,分析出文本信息,提取新闻节目标题;利用镜头检测技术对视频资源的画面部分进行镜头检测,将新闻节目自底向上切分为若干具有相似视觉特征的镜头,并通过关键帧提取技术提取出所述具有相似视觉特征的镜头的关键帧序列,再根据所提取的关键帧序列对视频资源的背景、特定物体、人脸和行为进行识别;所述S3具体包括如下步骤:S3.1:基于ASR语音识别技术转化的文本内容和OCR文字识别技术提取的新闻节目标题,结合根据提取的关键帧序列得到的背景、特定物体、人脸和行为的识别信息,利用LDA无监督学习算法得到各模态的语义主题信息;S3.2:以背景识别的时间点和基于MFCCs音频特征的语音判定分析技术得到的停顿间隔时间点作为跨模态场景检测的基线时间点,进行场景分割,对各模态的语义主题信息进行切分,输出Scene层级;S3.3:采用跨模态的主题融合提取算法,对各场景的主题描述进行近似性计算,对主题相近的场景进行融合聚类,输出Scene主题。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都索贝数码科技股份有限公司,未经成都索贝数码科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910483232.X/,转载请声明来源钻瓜专利网。