[发明专利]一种文本识别方法、设备、计算机可读存储介质及装置有效
申请号: | 201710708318.9 | 申请日: | 2017-08-17 |
公开(公告)号: | CN109408795B | 公开(公告)日: | 2022-04-15 |
发明(设计)人: | 张滨;娄涛;杨希;周莹;李婧;林华生;贾强;汪远航 | 申请(专利权)人: | 中国移动通信集团公司;中移(苏州)软件技术有限公司 |
主分类号: | G06F40/279 | 分类号: | G06F40/279;H04W4/14 |
代理公司: | 北京派特恩知识产权代理有限公司 11270 | 代理人: | 张颖玲;王花丽 |
地址: | 100032 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 识别 方法 设备 计算机 可读 存储 介质 装置 | ||
1.一种文本识别方法,其特征在于,所述方法包括:
获取待识别文本,并对所述待识别文本进行编码处理,得到第一文本指纹;
识别所述第一文本指纹所属的类别得到识别结果;
若所述识别结果为可识别类别,对所述待识别文本进行类别分析得到所述待识别文本的反馈类别;其中所述可识别类别是指基于所述识别结果能够识别出所述第一文本指纹所属的类别;
根据所述识别结果与所述反馈类别之间的关系,更新所述第一文本指纹对应的预设文本指纹库,所述更新包括删除操作。
2.根据权利要求1中所述的方法,其特征在于,所述若所述识别结果为可识别类别,对所述待识别文本进行类别分析得到所述待识别文本的反馈类别,包括:
若所述识别结果为可识别类别,判断所述识别结果是否为目标类别;
若所述识别结果为所述目标类别,根据预设处理规则对所述待识别文本进行处理得到所述待识别文本的概率参数;其中,所述预设处理规则包括至少两种处理规则;
基于所述概率参数和所述概率参数对应的类别,确定所述待识别文本的类别为所述反馈类别。
3.根据权利要求2中所述的方法,其特征在于,所述若所述识别结果为所述目标类别,根据预设处理规则对所述待识别文本进行处理得到所述待识别文本的概率参数,包括:
若所述识别结果为所述目标类别,基于第一处理规则对所述待识别文本进行处理,得到第一子概率参数;
基于第二处理规则对所述待识别文本进行处理,得到第二子概率参数;
对所述第一子概率参数和所述第二子概率参数进行计算,得到所述待识别文本的概率参数。
4.根据权利要求3所述的方法,其特征在于,所述若所述识别结果为所述目标类别,基于第一处理规则对所述待识别文本进行处理,得到第一子概率参数,包括:
统计每一预设类别的关键词在所述待识别文本中存在的个数的总和,得到统计数值;
基于每一所述预设类别对应的统计数值,得到所述待识别文本的第一子概率参数。
5.根据权利要求3所述的方法,其特征在于,所述基于第二处理规则对所述待识别文本进行处理,得到第二子概率参数,包括:
对所述待识别文本进行分词处理得到分词;
根据转换规则将每一所述分词进行转换,得到每一所述分词对应的转换参数;
根据第一算法对每一所述分词对应的转换参数进行分类计算,得到所述待识别文本的第二子概率参数。
6.根据权利要求2所述的方法,其特征在于,所述根据所述识别结果与所述反馈类别之间的关系,更新所述第一文本指纹对应的预设文本指纹库,包括:
若所述反馈类别不是所述目标类别,获取所述目标类别对应的预设文本指纹库,得到第一预设文本指纹库;
采用第三算法,判断所述第一预设文本指纹库中是否存在满足第一预设条件且与所述第一文本指纹对应的第一参考文本指纹;
若所述第一预设文本指纹库中存在所述第一参考文本指纹,删除所述第一预设文本指纹库中的所述第一参考文本指纹。
7.根据权利要求1所述的方法,其特征在于,所述若所述识别结果为可识别类别,对所述待识别文本进行类别分析得到所述待识别文本的反馈类别,还包括:
若所述识别结果为可识别类别,采用第二算法,判断预设历史文本库中是否存在满足第二预设条件且与所述待识别文本对应的参考文本;
若所述预设历史文本库中存在所述参考文本,获取所述参考文本的类别,并确定所述参考文本的类别为所述反馈类别。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国移动通信集团公司;中移(苏州)软件技术有限公司,未经中国移动通信集团公司;中移(苏州)软件技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710708318.9/1.html,转载请声明来源钻瓜专利网。