[发明专利]一种文字域类型识别方法和文字域类型识别系统有效

申请号：	201510484879.6	申请日：	2015-08-07
公开（公告）号：	CN105046289B	公开（公告）日：	2019-04-26
发明（设计）人：	朱睿;张弛;吴家楠;周舒畅;印奇	申请（专利权）人：	北京旷视科技有限公司;北京迈格威科技有限公司
主分类号：	G06K9/72	分类号：	G06K9/72
代理公司：	北京市磐华律师事务所 11336	代理人：	董巍;高伟
地址：	100190 北京***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种文字类型识别方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种文字域类型识别方法，其特征在于，所述方法包括：

步骤S101：载入文字数据的语言模型，其中所述语言模型为利用所述文字数据基于神经网络训练得到的文字域分类器；

步骤S102：通过所述语言模型确定新输入的文字数据的文字域类型；以及

步骤S103：对所述新输入的文字数据进行编码，基于经编码的所述新输入的文字数据、由步骤S102得到的所属的所述文字域类型，通过用于修正文字域类型的语言模型，判断所述新输入的文字数据是否需要进行修改，以及如果是则将所述新输入的文字数据中出现的漏字、错字、多字中的至少一种错误修改，并返回修改后的文字数据。

2.如权利要求1所述的文字域类型识别方法，其特征在于，所述神经网络是长短期记忆人工神经网络LSTM。

3.如权利要求1或2所述的文字域类型识别方法，其特征在于，所述步骤S102包括：通过所述语言模型计算新输入的文字数据中每个短词或字的置信程度，将整个所述新输入的文字数据的置信程度归一化为所述新输入的文字数据为特定文字域类型的概率，并将概率最高的类型确定为所述新输入的文字数据的文字域类型。

4.如权利要求1所述的文字域类型识别方法，其特征在于，在步骤S102中，在确定新输入的文字数据的文字域类型之前，对所述新输入的文字数据进行编码，以便于所述语言模型的处理。

5.一种文字域类型识别系统，其特征在于，所述系统包括：

文字域识别模块，用于载入文字数据的语言模型，其中所述语言模型为利用所述文字数据基于神经网络训练得到的文字域分类器；通过所述语言模型确定新输入的文字数据的文字域类型；以及文字域修正模块，用于对所述新输入的文字数据进行编码，基于经编码的所述新输入的文字数据、由所述语言模型确定的所属的所述文字域类型，通过用于修正文字域类型的语言模型，判断所述新输入的文字数据是否需要进行修改，以及如果是则将所述新输入的文字数据中出现的漏字、错字、多字中的至少一种错误修改，并返回修改后的文字数据。

6.如权利要求5所述的文字域类型识别系统，其特征在于，所述神经网络是长短期记忆人工神经网络LSTM。

7.如权利要求5或6所述的文字域类型识别系统，其特征在于，所述文字域识别模块还用于通过所述语言模型计算新输入的文字数据中每个短词或字的置信程度，将整个所述新输入的文字数据的置信程度归一化为所述新输入的文字数据为特定文字域类型的概率，并将概率最高的类型确定为所述新输入的文字数据的文字域类型。

8.如权利要求5所述的文字域类型识别系统，其特征在于，在所述文字域识别模块确定新输入的文字数据的文字域类型之前，对所述新输入的文字数据进行编码，以便于所述语言模型的处理。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京旷视科技有限公司;北京迈格威科技有限公司，未经北京旷视科技有限公司;北京迈格威科技有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201510484879.6/1.html，转载请声明来源钻瓜专利网。

上一篇：排插座、插头以及连接结构
下一篇：基于低秩表示的高光谱图像波段选择方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种文字域类型识别方法和文字域类型识别系统有效

专利文献下载