[发明专利]基于匹配类别嵌入的零样本的汉字识别方法有效
申请号: | 202111038228.6 | 申请日: | 2021-09-06 |
公开(公告)号: | CN113723421B | 公开(公告)日: | 2023-10-17 |
发明(设计)人: | 黄宇浩;金连文;彭德智 | 申请(专利权)人: | 华南理工大学 |
主分类号: | G06V30/19 | 分类号: | G06V30/19;G06V30/148;G06N3/04 |
代理公司: | 北京东方盛凡知识产权代理有限公司 11562 | 代理人: | 李娜 |
地址: | 510641 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 匹配 类别 嵌入 样本 汉字 识别 方法 | ||
本发明涉及基于匹配类别嵌入的零样本的汉字识别方法,包括:提取汉字文本图像的视觉特征;对汉字类别进行类别嵌入,采用基于层级分解嵌入算法,对汉字的部件进行层级分解,并计算得到相应的嵌入向量;将汉字类别的类别嵌入映射到视觉空间中,基于双向嵌入转移模块,使得汉字类别嵌入的维度等于视觉空间的维度,并保留所述汉字类别的原始信息;通过基于距离的CTC解码器,匹配汉字文本图像的视觉特征和汉字类别嵌入信息,输出汉字文本图像识别的最终结果。本发明通过匹配类别嵌入的方法,实现了零样本的汉字文本识别,该方法适用于汉字长文本识别和零样本汉字识别,此外本发明实现过程简单且灵活,可以应用于主流的文本识别框架。
技术领域
本发明涉及模式识别与人工智能技术领域,特别是涉及基于匹配类别嵌入的零样本的汉字识别方法。
背景技术
汉字是世界上最古老的文字之一,它是中华民族历史和文化传承至今的载体。研究汉字识别并将历史文档进行电子化,对历史文化的传承具有重要的价值和意义。然而汉字的种类非常庞大,除了日常使用的4000多种汉字以外,历史和学术藏品里记载的汉字种类数已超过了85000种,这些汉字多以生僻字、繁体字、异体字的形式存在,且样本往往难以人工收集进行获取。目前的中文文本识别模型,普遍是结合卷积神经网络和CTC解码或Attention解码的机制进行文字的识别。并且通常采用的是基于数据驱动的方案,即针对每一种汉字类别,采集或合成大量的数据进行模型的训练,这对于常用汉字的识别来说是适用的。但是对于生僻字、繁体字、异体字来说,它们的真实样本是难以收集获取的,因此获取并标注充足的数据是一件耗费时间和金钱的事情,此外也难以对此类的样本进行合成。
针对上述问题,采用基于匹配类别嵌入的零样本的汉字别方法,通过仅学习常用汉字样本中的部件特征,实现对生僻字、繁体字、异体字样本的识别。
发明内容
本发明的主要目的在于克服现有技术的缺点与不足,提出基于匹配类别嵌入的零样本的汉字识别方法,解决零样本的汉字识别问题,实现对生僻字、繁体字、异体字样本的识别。
为实现上述目的,本发明提供了如下方案:
一种基于匹配类别嵌入的零样本的汉字识别方法,包括以下步骤:
提取汉字文本图像的视觉特征;
对汉字类别进行类别嵌入,采用基于层级分解嵌入算法,对汉字的部件进行层级分解,并计算得到相应的嵌入向量;
将所述汉字类别的类别嵌入映射到视觉空间中,基于双向嵌入转移模块,使得汉字类别嵌入的维度等于视觉空间的维度,并保留所述汉字类别的原始信息;
通过基于距离的CTC解码器,匹配所述汉字文本图像的视觉特征和汉字类别嵌入信息,输出汉字文本图像识别的最终结果。
优选的,采用基于卷积神经网络的文本编码器提取所述汉字文本图像的视觉特征。
优选的,所述基于卷积神经网络的文本编码器提取所述汉字文本图像的视觉特征具体包括:
采用ResNet18模型作为主干网络进行提取,去除所述主干网络最后的全连接层,并将最后输出的全局平均池化层替换为只对特征图高度进行池化,使得特征图的输出高度为1,宽度保持不变。
优选的,在所述主干网络最后一层卷积层的输出处采用dropout的策略,并将所述dropout的概率设置为0.3,用于防止网络出现过拟合现象。
优选的,所述层级分解嵌入算法具体包括:
根据汉字的表意文字描述序列,得到汉字的部件和结构;然后根据嵌入算法的函数对汉字的部件和结构进行嵌入,得到相应的汉字类别嵌入,其函数表示如式(1):
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111038228.6/2.html,转载请声明来源钻瓜专利网。