[发明专利]一种对音视频流中物品和语言实时识别分析的方法与装置在审
申请号: | 202011451586.5 | 申请日: | 2020-12-09 |
公开(公告)号: | CN112637620A | 公开(公告)日: | 2021-04-09 |
发明(设计)人: | 柏杨;樊晓昆 | 申请(专利权)人: | 杭州艾耕科技有限公司 |
主分类号: | H04N21/2187 | 分类号: | H04N21/2187;H04N21/231;H04N21/234;H04N21/431;H04N21/433;H04N21/434;H04N21/439;H04N21/44;H04N21/4788;H04N21/488;H04N21/6437 |
代理公司: | 杭州天昊专利代理事务所(特殊普通合伙) 33283 | 代理人: | 何碧珩;卓彩霞 |
地址: | 310052 浙江省杭州市滨江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 视频 物品 语言 实时 识别 分析 方法 装置 | ||
本发明公开了一种对音视频流中物品和语言实时识别分析的方法与装置,本发明针对现有的直播平台,在直播时对音视频进行实时处理,实现物品识别,语音识别,并将识别的结果通过贴图的形式实时的展现在直播画面中,实现低延时的直播处理,使得观看者可以几乎无延迟的看到直播内容。本发明还可以根据直播音频内容产生丰富的关键字贴图,并实时的展现在画面上,直播画面的丰富度,减少了人工处理的成本,还可以通过物品识别,在画面上添加实时追踪的文字或者贴图,该类型的贴图人工是无法做到的。
技术领域
本发明具体涉及一种对音视频流中物品和语言实时识别分析的方法与装置。
背景技术
随着视频直播的发展,主播直播带货逐渐兴起。现有的直播工具往往只是对主播端进行音视频采集,然后允许主播简单的将一些文字和贴图手工的放在直播画面中,而有时候带货主播有更加综合的需求,希望对直播的音视频进行实时的简单后期,实现物品识别、贴图跟随、智能字幕等功能。
RTMP协议又叫实时信息传输协议,目前被广泛的使用在视频直播领域,直播端通过应用将本地设备中的视频以流的形式推送至互联网,用户可以在自己的设备上通过可以拉取RTMP协议的视频流的应用在本地实时的观看直播端推送过来的视频内容。
针对音视频处理和直播音视频处理,目前主要有以下方法:
(1)对于音视频处理,目前视频方面主要是使用逐帧截图进行视频内容识别,然后将修改后的帧再编码成连续的视频画面;音频方面已经有较为成熟的音频转文字的方法。
(2)对于直播音视频处理,主要还是通过人工标注,使用直播工具如(Open Broad-cast Software)进行人工添加图层进行直播画面展示;对音频基本只有变声,升降调等音频信号处理方式,与画面内容基本无关联。
现有技术中,对音视频流中物品和语言实时识别分析的方法存在以下缺点:
(1)现有的音视频处理方法,具有较大的处理延时,无法直接运用在直播流音视频处理上;
(2)直播工具中对直播画面的处理往往比较单一,仅能简单的增加静态的文字、对画面进行简单的修饰;不能智能识别物品,不能结合语音和其他后台数据将其展现在画面上。
发明内容
针对上述情况,为克服现有技术的缺陷,本发明提供一种对音视频流中物品和语言实时识别分析的方法与装置。
为了实现上述目的,本发明提供以下技术方案:
一种对音视频流中物品和语言实时识别分析的方法,包括以下步骤:
(1)音视频RTMP直播流接收与分割
(1.1)接收音视频RTMP直播流:搭建支持RTMP协议的服务器,直播端向这个服务器推送RTMP直播流,服务器会持续收到这个直播流并将其缓存;
(1.2)音视频RTMP直播流的分割:从步骤(1.1)中的RTMP协议的服务器中实时拉取正在推送的直播流信息,每隔一段时间进行一次切割,生成视频文件;当视频文件生成后,对该文件进行标记并发送;
(2)音视频片段识别及贴图元素生成:收到步骤(1.2)中切割得到的视频文件后,按如下顺序进行处理;
(2.1)音频提取及识别:首先从视频片段中提取出音频,并将声音转化为文本,将文本及时间轴信息存储下来;
(2.2)文字处理及贴图生成:由步骤(2.1)得到语音对应的文本,通过自然语言处理方法从中提取出关键词,然后使用这些关键词生成文字贴图;将这些文字贴图结合时间轴信息一起保存下来;
(2.3)视频元素识别及处理:对视频画面中的文字和物品进行识别,生成不同时间上画面的位置信息并保存;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州艾耕科技有限公司,未经杭州艾耕科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011451586.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于无人机的矿山三维模型制作方法
- 下一篇:工人用的多功能鞋架