[发明专利]视频文本识别网络模型、视频文本识别装置与电子设备在审

申请号：	202010082008.2	申请日：	2020-02-06
公开（公告）号：	CN111274985A	公开（公告）日：	2020-06-12
发明（设计）人：	任化强	申请（专利权）人：	咪咕文化科技有限公司;中国移动通信集团有限公司
主分类号：	G06K9/00	分类号：	G06K9/00;G06K9/32;G06K9/34;G06N3/04;G06N3/08
代理公司：	上海晨皓知识产权代理事务所(普通合伙) 31260	代理人：	成丽杰
地址：	100088 北京市西城区德***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	视频文本识别网络模型装置电子设备
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种视频文本识别网络模型，其特征在于，包括：

文本区域提取模块，用于从接收到的视频帧的特征图像中提取包含文字信息的文本框区域信息；

文字检测模块，用于根据所述文本框区域信息，从所述特征图像中提取文字区域信息与文字特征图；

文字识别模块，用于根据所述文字区域信息，从所述文字特征图中识别出文字信息。

2.根据权利要求1所述的视频文本识别网络模型，其特征在于，在训练过程中所采用的所述视频文本识别网络模型的损失函数为：L_模型＝aL_RPN+L_TDN+L_TRN；L_模型表示所述视频文本识别网络模型的损失函数，L_RPN表示所述文本区域提取模块的损失函数，L_TDN表示所述文字检测模块的损失函数，L_TRN表示所述文字识别模块的损失函数，0＜a≤1。

3.根据权利要求1所述的视频文本识别网络模型，其特征在于，所述视频文本识别网络模型的训练过程如下：

将样本库中的多个视频帧的训练图像输入到所述视频文本识别网络模型，得到所述视频文本识别网络模型输出的多个识别结果；所述识别结果包括所述文本区域提取模块的预测文本框区域信息、所述文字检测模块的预测文字区域信息以及所述文字识别模块的预测文本标签序列；

对于每个所述训练图像，将所述训练图像的标注信息与所述训练图像对应的所述识别结果代入所述视频文本识别网络模型的损失函数，得到所述视频文本识别网络模型的损失函数值；

根据所述视频文本识别网络模型的损失函数值，对所述视频文本识别网络模型进行优化处理。

4.根据权利要求2所述的视频文本识别网络模型，其特征在于，

其中，N表示预设的锚框的数量，N’表示值为正的锚框的数量，λ为预设值，P_i表示第i个锚框的置信度，P_i^*表示所述标注信息中第i个锚框的置信度，t_i表示第i个锚框的位置向量，t_i^*表示所述标注信息中第i个锚框的位置向量，L_cls表示损失函数的分类部分，L_reg表示损失函数的回归部分。

5.根据权利要求4所述的视频文本识别网络模型，其特征在于，L_cls为交叉熵函数，L_reg为Smooth函数。

6.根据权利要求2所述的视频文本识别网络模型，其特征在于，

其中，l_i表示第i个所述训练图像的标识信息中的文本标签序列，y_i表示所述文字识别模块输出的第i个所述训练图像的预测文本标签序列。

7.根据权利要求1所述的视频文本识别网络模型，其特征在于，a为0.5。

8.根据权利要求1所述的视频文本识别网络模型，其特征在于，所述视频文本识别网络模型还包括：

图像特征提取模块，用于从输入的视频帧的图像中获取所述特征图像。