[发明专利]基于匹配类别嵌入的零样本的汉字识别方法有效

申请号：	202111038228.6	申请日：	2021-09-06
公开（公告）号：	CN113723421B	公开（公告）日：	2023-10-17
发明（设计）人：	黄宇浩;金连文;彭德智	申请（专利权）人：	华南理工大学
主分类号：	G06V30/19	分类号：	G06V30/19;G06V30/148;G06N3/04
代理公司：	北京东方盛凡知识产权代理有限公司 11562	代理人：	李娜
地址：	510641 广***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于匹配类别嵌入样本汉字识别方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于匹配类别嵌入的零样本的汉字识别方法，其特征在于，包括以下步骤：

提取汉字文本图像的视觉特征；

对汉字类别进行类别嵌入，采用基于层级分解嵌入算法，对汉字的部件进行层级分解，并计算得到相应的嵌入向量；

将所述汉字类别的类别嵌入映射到视觉空间中，基于双向嵌入转移模块，使得汉字类别嵌入的维度等于视觉空间的维度，并保留所述汉字类别的原始信息；

通过基于距离的CTC解码器，匹配所述汉字文本图像的视觉特征和汉字类别嵌入信息，输出汉字文本图像识别的最终结果。

2.根据权利要求1所述的基于匹配类别嵌入的零样本的汉字识别方法，其特征在于，采用基于卷积神经网络的文本编码器提取所述汉字文本图像的视觉特征。

3.根据权利要求2所述的基于匹配类别嵌入的零样本的汉字识别方法，其特征在于，所述基于卷积神经网络的文本编码器提取所述汉字文本图像的视觉特征具体包括：

采用ResNet18模型作为主干网络进行提取，去除所述主干网络最后的全连接层，并将最后输出的全局平均池化层替换为只对特征图高度进行池化，使得特征图的输出高度为1，宽度保持不变。

4.根据权利要求3所述的基于匹配类别嵌入的零样本的汉字识别方法，其特征在于，在所述主干网络最后一层卷积层的输出处采用dropout的策略，并将所述dropout的概率设置为0.3，用于防止网络出现过拟合现象。

5.根据权利要求1所述的基于匹配类别嵌入的零样本的汉字识别方法，其特征在于，所述层级分解嵌入算法具体包括：

根据汉字的表意文字描述序列，得到汉字的部件和结构；然后根据嵌入算法的函数对汉字的部件和结构进行嵌入，得到相应的汉字类别嵌入，其函数表示如式(1)：

其中，n_i表示部件集R中的部件，n_j表示结构集S中的结构，y_n为部件或结构的one hot编码向量，λ是超参数，设置值为0.5；v_n是部件或结构的影响因子，能够通过如下式(2)进行计算：

其中，α和β是超参数，分别设置为0.5和0.001，pi表示的是根节点到叶子节点路径上的节点，l表示的是路径的长度。

6.根据权利要求1所述的基于匹配类别嵌入的零样本的汉字识别方法，其特征在于，所述双向嵌入转移模块由一个正向的全连接层和一个反向的全连接层组成，两个全连接层共享参数。

7.根据权利要求6所述的基于匹配类别嵌入的零样本的汉字识别方法，其特征在于，所述正向的全连接层将汉字的类别嵌入映射到所述视觉空间，用于使类别嵌入的维度等于所述文本图像的视觉特征的维度。

8.根据权利要求6所述的基于匹配类别嵌入的零样本的汉字识别方法，其特征在于，所述反向的全连接层由所述正向全连接层的参数矩阵的转置构成，通过所述反向的全连接层，能够重构类别嵌入，并采用重构损失函数，计算重构类别嵌入与原始类别嵌入的均方误差，使得映射到所述视觉空间的类别嵌入能够保留其原始的信息。

9.根据权利要求1所述的基于匹配类别嵌入的零样本的汉字识别方法，其特征在于，所述基于距离的CTC解码器的具体操作包括：

采用余弦相似度函数计算所述视觉特征和汉字类别嵌入的距离，其表达式为：

其中，V表示的是视觉特征，Φ′表示的是映射后的类别嵌入；在计算得到视觉特征和类别嵌入之间的余弦相似度后，代入到基于距离的CTC损失函数中去作为网络的优化目标；

所述基于距离的CTC损失函数表达式为：

其中，l_i是标签，α是可学习参数，能够调节余弦相似度的大小。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于华南理工大学，未经华南理工大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202111038228.6/1.html，转载请声明来源钻瓜专利网。

专利分类

专利文献下载