[发明专利]视频文本识别网络模型、视频文本识别装置与电子设备在审
申请号: | 202010082008.2 | 申请日: | 2020-02-06 |
公开(公告)号: | CN111274985A | 公开(公告)日: | 2020-06-12 |
发明(设计)人: | 任化强 | 申请(专利权)人: | 咪咕文化科技有限公司;中国移动通信集团有限公司 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/32;G06K9/34;G06N3/04;G06N3/08 |
代理公司: | 上海晨皓知识产权代理事务所(普通合伙) 31260 | 代理人: | 成丽杰 |
地址: | 100088 北京市西城区德*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 视频 文本 识别 网络 模型 装置 电子设备 | ||
1.一种视频文本识别网络模型,其特征在于,包括:
文本区域提取模块,用于从接收到的视频帧的特征图像中提取包含文字信息的文本框区域信息;
文字检测模块,用于根据所述文本框区域信息,从所述特征图像中提取文字区域信息与文字特征图;
文字识别模块,用于根据所述文字区域信息,从所述文字特征图中识别出文字信息。
2.根据权利要求1所述的视频文本识别网络模型,其特征在于,在训练过程中所采用的所述视频文本识别网络模型的损失函数为:L模型=aLRPN+LTDN+LTRN;L模型表示所述视频文本识别网络模型的损失函数,LRPN表示所述文本区域提取模块的损失函数,LTDN表示所述文字检测模块的损失函数,LTRN表示所述文字识别模块的损失函数,0<a≤1。
3.根据权利要求1所述的视频文本识别网络模型,其特征在于,所述视频文本识别网络模型的训练过程如下:
将样本库中的多个视频帧的训练图像输入到所述视频文本识别网络模型,得到所述视频文本识别网络模型输出的多个识别结果;所述识别结果包括所述文本区域提取模块的预测文本框区域信息、所述文字检测模块的预测文字区域信息以及所述文字识别模块的预测文本标签序列;
对于每个所述训练图像,将所述训练图像的标注信息与所述训练图像对应的所述识别结果代入所述视频文本识别网络模型的损失函数,得到所述视频文本识别网络模型的损失函数值;
根据所述视频文本识别网络模型的损失函数值,对所述视频文本识别网络模型进行优化处理。
4.根据权利要求2所述的视频文本识别网络模型,其特征在于,
其中,N表示预设的锚框的数量,N’表示值为正的锚框的数量,λ为预设值,Pi表示第i个锚框的置信度,Pi*表示所述标注信息中第i个锚框的置信度,ti表示第i个锚框的位置向量,ti*表示所述标注信息中第i个锚框的位置向量,Lcls表示损失函数的分类部分,Lreg表示损失函数的回归部分。
5.根据权利要求4所述的视频文本识别网络模型,其特征在于,Lcls为交叉熵函数,Lreg为Smooth函数。
6.根据权利要求2所述的视频文本识别网络模型,其特征在于,
其中,li表示第i个所述训练图像的标识信息中的文本标签序列,yi表示所述文字识别模块输出的第i个所述训练图像的预测文本标签序列。
7.根据权利要求1所述的视频文本识别网络模型,其特征在于,a为0.5。
8.根据权利要求1所述的视频文本识别网络模型,其特征在于,所述视频文本识别网络模型还包括:
图像特征提取模块,用于从输入的视频帧的图像中获取所述特征图像。
9.一种视频文本识别装置,其特征在于,包括:权利要求1至8中任一项所述的视频文本识别网络模型。
10.一种电子设备,其特征在于,包括:权利要求9所述的视频文本识别网络模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于咪咕文化科技有限公司;中国移动通信集团有限公司,未经咪咕文化科技有限公司;中国移动通信集团有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010082008.2/1.html,转载请声明来源钻瓜专利网。