[发明专利]一种基于文字识别的视频内容判断方法有效
申请号: | 201811360543.9 | 申请日: | 2018-11-15 |
公开(公告)号: | CN109583443B | 公开(公告)日: | 2022-10-18 |
发明(设计)人: | 周建波;高岚 | 申请(专利权)人: | 四川长虹电器股份有限公司 |
主分类号: | G06V20/62 | 分类号: | G06V20/62;G06V10/82;G06N3/04;G06N3/08 |
代理公司: | 四川省成都市天策商标专利事务所(有限合伙) 51213 | 代理人: | 郭会 |
地址: | 621000 四*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 文字 识别 视频 内容 判断 方法 | ||
本发明公开了一种基于文字识别的视频内容判断方法,包括步骤:A.对视频画面进行截图;B.调用预先训练完毕的文字检测模型对截图画面进行文字区域的分析,找到画面中的文字区域并分割出来,获得一块或多块文字区域;C.检测到文字区域后,调用预先训练完毕的文字识别模型,循环对每一块文字区域进行文字识别,识别出每个文字区域的文字内容;D.针对识别出的文字内容,进行自然语言处理,理解其语义,做出相应的视频播放设置。本发明的视频内容判断方法能够实时运行在嵌入式平台上,能够识别出视频中文字信息,并根据文字信息的提示,进行场景设置。
技术领域
本发明涉及图像识别技术领域,特别涉及一种基于文字识别的视频内容判断方法。
背景技术
随着人工智能技术的大力发展,人工智能已逐渐进入到人类生活的各个方面。利用人工智能技术,使电视具备智能化,可以大大改善用户的使用体验,使人们的生活变得更加的便利。
电视中视频图像信息,往往包含着大量的信息内容。在一帧图像中,除了图像画面,还可能包含文字信息,这些文字信息通常是对当前播放场景重要信息的显示。对比于千变万化的图像信息,分析文字信息,通常更容易了解到当前播放是哪一种场景。
目前大部分产品的人工智能技术都是运行在互联网的云服务器端,因为搭载Android系统本身的硬件条件限制,无法运行大规模的计算,也不能占据太多的资源,如CPU的占用,因此,暂时没有较好的针对运行在嵌入式平台上的图像场景中文字识别的技术方案。
发明内容
本发明的目的是克服上述背景技术中不足,提供一种基于文字识别的视频内容判断方法,实现能够实时运行在嵌入式平台上,能够识别出视频中文字信息,并根据文字信息的提示,进行场景设置(图像或语音设置),适用于特定的领域,如电视领域等。
为了达到上述的技术效果,本发明采取以下技术方案:
一种基于文字识别的视频内容判断方法,包括以下步骤:
A.对视频画面进行截图;
B.调用预先训练完毕的文字检测模型对截图画面进行文字区域的分析,找到画面中的文字区域并分割出来,获得一块或多块文字区域;
C.检测到文字区域后,调用预先训练完毕的文字识别模型,循环对每一块文字区域进行文字识别,识别出每个文字区域的文字内容;
D.针对识别出的文字内容,进行自然语言处理,理解其语义,做出相应的视频播放设置。
进一步地,所述步骤A中还包括对截图画面进行需要文字识别的若干图像区域的划分设置;
所述步骤B具体为:
B1.调用预先训练完毕的文字检测模型对截图画面进行文字区域的分析,找到画面中的文字区域并分割出来,获得一块或多块文字区域;
B2.若检测到的文字区域,在预先设定的需要文字识别的图像区域,则进入步骤C,否则,返回步骤A。
进一步地,所述步骤B中的文字检测模型为卷积神经网络。
进一步地,所述卷积神经网络为基于tensorflow的mobilenet-ssd神经网络。
进一步地,对所述卷积神经网络的训练步骤过程如下:
S1.针对神经网络输入特点,收集预设数量的有文字内容的视频图像样本;
S2.对每一张有文字内容的视频图像样本,至少提取出文字所在区域的矩形框坐标、文字内容、文字语言类别的信息以及图像样本本身的图像大小和图像格式信息;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川长虹电器股份有限公司,未经四川长虹电器股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811360543.9/2.html,转载请声明来源钻瓜专利网。