[发明专利]文本编码识别方法和装置有效
申请号: | 201710267246.9 | 申请日: | 2017-04-21 |
公开(公告)号: | CN107122342B | 公开(公告)日: | 2020-06-12 |
发明(设计)人: | 符晓;杨风雷;李沙沙 | 申请(专利权)人: | 东莞中国科学院云计算产业技术创新与育成中心 |
主分类号: | G06F40/126 | 分类号: | G06F40/126 |
代理公司: | 广州华进联合专利商标代理有限公司 44224 | 代理人: | 舒丁 |
地址: | 523808 广东省东莞市松山*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 编码 识别 方法 装置 | ||
1.一种文本编码识别方法,所述方法包括:
获取待识别文本,确定所述待识别文本对应的多个编码种类;
从所述待识别文本中提取字符串,根据所述多个编码种类分别对所述字符串进行编码,生成与每个编码种类对应的字符串编码结果;
将每个所述字符串编码结果与预设样本库中的字符进行匹配,得到匹配字符的数量,按照匹配字符的数量对所述多个编码种类进行第一次排序;
将每个所述字符串编码结果与预设全字符库中的字符进行匹配,得到匹配字符的数量,按照匹配字符的数量对所述多个编码种类进行第二次排序;
根据所述多个编码种类分别对所述待识别文本进行编码,生成与每个编码种类对应的文本编码结果;
将每个所述文本编码结果与所述预设全字符库中的字符进行匹配,得到匹配字符的数量,按照匹配字符的数量对所述多个编码种类进行第三次排序;
获取经过第三次排序的多个编码种类对应的匹配字符数量最多的编码种类,根据所述匹配字符数量最多的编码种类对所述待识别文本进行编码。
2.根据权利要求1所述的方法,其特征在于,所述获取待识别文本的步骤之后,还包括:
判断所述待识别文本是否存在字节顺序标记,若否,则进入确定所述待识别文本对应的多个编码种类的步骤;
若所述待识别文本存在字节顺序标记,则根据所述字节顺序标记确定所述待识别文本的编码种类;
根据字节顺序标记确定的编码种类对所述待识别文本进行编码。
3.根据权利要求1所述的方法,其特征在于,获取经过第三次排序的多个编码种类对应的匹配字符数量最多的编码种类,根据所述匹配字符数量最多的编码种类对所述待识别文本进行编码,包括:
获取经过第三次排序的多个编码种类中匹配字符数量最多的编码种类对应的文本编码结果;
获取该文本编码结果与所述预设全字符库中的字符进行匹配得到的匹配字符的数量;
判断该匹配字符的数量占所述待识别文本字符数量的比例是否超过预设的阈值,若是,则
确定所述多个编码种类对应的匹配字符数量最多的编码种类为所述待识别文本的编码种类;
根据确定的编码种类对所述待识别文本进行编码。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
依照预设的分类随机获取多个文本;
统计所述多个文本中的字符出现频率,按照频率高低对所述多个文本中的字符进行排序;
选择所述多个文本中排序在先的预设数量的字符建立高频库;
通过多个编码种类对所述高频库进行编码,得到多个编码种类对应的样本库。
5.根据权利要求1所述的方法,其特征在于,在所述获取待识别文本,确定所述待识别文本对应的多个编码种类的步骤之后,还包括:
从所述待识别文本中提取字符串,检测所述字符串是否超出所述多个编码种类中的任意一个编码种类的范围,若是,则
将超出范围的编码种类从所述多个编码种类中删除。
6.一种文本编码识别装置,其特征在于,所述装置包括:
编码种类确定模块,用于获取待识别文本,确定所述待识别文本对应的多个编码种类;
编码结果生成模块,用于从所述待识别文本中提取字符串,根据所述多个编码种类分别对所述字符串进行编码,生成与每个编码种类对应的字符串编码结果;
排序模块,用于将每个所述字符串编码结果与预设样本库中的字符进行匹配,得到匹配字符的数量,按照匹配字符的数量对所述多个编码种类进行第一次排序;用于将每个所述字符串编码结果与预设全字符库中的字符进行匹配,得到匹配字符的数量,按照匹配字符的数量对所述多个编码种类进行第二次排序;
所述编码结果生成模块还用于根据所述多个编码种类分别对所述待识别文本进行编码,生成与每个编码种类对应的文本编码结果;
所述排序模块还用于将每个所述文本编码结果与所述预设全字符库中的字符进行匹配,得到匹配字符的数量,按照匹配字符的数量对所述多个编码种类进行第三次排序;
编码模块,用于获取经过第三次排序的多个编码种类对应的匹配字符数量最多的编码种类,根据所述匹配字符数量最多的编码种类对所述待识别文本进行编码。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东莞中国科学院云计算产业技术创新与育成中心,未经东莞中国科学院云计算产业技术创新与育成中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710267246.9/1.html,转载请声明来源钻瓜专利网。