[发明专利]一种文本识别方法和装置在审

申请号：	202110743926.X	申请日：	2021-07-01
公开（公告）号：	CN113420565A	公开（公告）日：	2021-09-21
发明（设计）人：	黄璇	申请（专利权）人：	腾讯科技（深圳）有限公司
主分类号：	G06F40/30	分类号：	G06F40/30;G06F40/109
代理公司：	深圳翼盛智成知识产权事务所(普通合伙) 44300	代理人：	李汉亮
地址：	518057 广东省深圳***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种文本识别方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请公开了一种文本识别方法和装置；本申请获取目标文本，所述目标文本包括至少一个文本单元；针对所述目标文本中各个文本单元，按照所述文本单元的书写顺序规则，对所述文本单元进行笔画拆分处理，得到所述目标文本的笔画表示；基于所述笔画表示，构建所述目标文本的语义特征信息；基于所述语义特征信息，预测所述目标文本属于每个预设文本类型的概率；根据所述概率，从所述预设文本类型中确定所述目标文本对应的目标文本类型。本申请实施例可以基于目标文本的笔画表示来构建其语义特征信息，进而预测其文本类型，通过笔画表示，可以很好地利用文本词语内部的结构信息，使得构建得到的语义特征信息的表征力更强，有利于提高文本识别的准确度。

技术领域

本申请涉及计算机技术领域，具体涉及一种文本识别方法和装置。

背景技术

随着计算机技术的发展，文本识别正逐步成为人工智能领域最为经典的研究方向之一。目前的文本识别方法，一般是通过单词到向量(word2vec，word to vector)模型直接将待识别文本转化为词向量，进而根据词向量去挖掘该待识别文本。

但是对于一些文本，比如汉字，它是一种强表义的语言文字，汉字词语内部的结构信息包含了丰富的语义特征，word2vec模型不能很好地利用汉字词语内部的结构信息，使得文本识别的精确度较低。

发明内容

本申请实施例提供一种文本识别方法和装置，可以提高文本识别的精确度。

本申请实施例提供一种文本识别方法，包括：

获取目标文本，所述目标文本包括至少一个文本单元；

针对所述目标文本中各个文本单元，按照所述文本单元的书写顺序规则，对所述文本单元进行笔画拆分处理，得到所述目标文本的笔画表示；

基于所述笔画表示，构建所述目标文本的语义特征信息；

基于所述语义特征信息，预测所述目标文本属于每个预设文本类型的概率；