[发明专利]文字识别纠错方法、装置、设备及计算机可读存储介质在审
申请号: | 201810430989.8 | 申请日: | 2018-05-07 |
公开(公告)号: | CN108664471A | 公开(公告)日: | 2018-10-16 |
发明(设计)人: | 张远 | 申请(专利权)人: | 平安普惠企业管理有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 深圳市世纪恒程知识产权代理事务所 44287 | 代理人: | 胡海国 |
地址: | 518000 广东省深圳市前海深港合作区前*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 纠错 可编辑文件 计算机可读存储介质 目标文件类型 读取 关键词组 文件类型 文字识别 只读文件 不同文件 调用目标 纠错效率 属性转换 映射关系 预设 | ||
1.一种文字识别纠错方法,其特征在于,所述文字识别纠错方法包括以下步骤:
当接收到待纠错文件时,读取所述待纠错文件的扩展名,并根据所述扩展名确定所述待纠错文件的属性;
判断所述待纠错文件的属性是否为只读文件,若所述待纠错文件的属性是只读文件,则对所述待纠错文件进行属性转换,生成可编辑文件;
读取所述可编辑文件中的多个关键词,形成关键词组,并根据所述关键词组确定所述可编辑文件的目标文件类型;
根据可编辑文件的文件类型与纠错库的预设映射关系,确定与所述目标文件类型对应的目标纠错库,并调用所述目标纠错库对所述可编辑文件纠错。
2.如权利要求1所述的文字识别纠错方法,其特征在于,所述调用所述目标纠错库对所述可编辑文件纠错的步骤包括:
识别所述可编辑文件中的至少一个语句,并检测识别出的所述各语句中的连接词,按照所述连接词将所述各语句划分为多个待识别词组;
逐一将所述待识别词组与所述目标纠错库中各预设词组对比,判断所述目标纠错库中是否存在与所述待识别词组一致的预设词组;
若所述目标纠错库中不存在与所述待识别词组一致的预设词组,则获取所述目标纠错库中与所述待识别词组相似度最高的目标预设词组,并将所述待识别词组替换为所述目标预设词组。
3.如权利要求2所述的文字识别纠错方法,其特征在于,所述将所述待识别词组替换为所述目标预设词组的步骤包括:
获取与当前待识别词组相邻的待识别词组,并将所述相邻的待识别词组与所述目标预设词组形成待识别语句,根据所述待识别语句判断所述目标预设词组与所述可编辑文件的语义情景匹配性;
若所述目标预设词组与所述可编辑文件匹配,则将所述待识别词组替换为所述目标预设词组。
4.如权利要求1所述的文字识别纠错方法,其特征在于,所述根据所述关键词组确定所述可编辑文件的目标文件类型的步骤包括:
将所述关键词组和预设关键词组库对比,确定所述预设关键词组库中的目标关键词组,其中所述目标关键词组与所述关键词组的元素匹配率最高;
根据所述预设关键词组库中关键词组与文件类型的映射关系,确定与所述目标关键词组对应的目标文件类型,将所述对应的目标文件类型确定为所述可编辑文件的目标文件类型。
5.如权利要求1所述的文字识别纠错方法,其特征在于,所述对所述待纠错文件进行属性转换,生成可编辑文件的步骤包括:
对所述待纠错文件进行扫描,根据所述待纠错文件中各文字之间的大小关系以及间隔关系确定所述待纠错文件中的标题和段落;
逐一扫描所述标题和所述段落中的文字,根据预设文字库对所述扫描的文字进行识别,并对所述识别的标题文字添加标题标识符;
将所述识别的标题文字和段落文字传输到预设编辑器中,生成所述可编辑文件。
6.如权利要求5所述的文字识别纠错方法,其特征在于,所述读取所述可编辑文件中的多个关键词,形成关键词组的步骤包括:
读取所述可编辑文件中的词组,并统计所述各词组出现的频次,将所述频次大于预设值的词组作为所述关键词;
根据所述标题标识符获取所述标题中的词组,将所述标题中的词组与所述关键词一并形成关键词组。
7.如权利要求1-6任一项所述的文字识别纠错方法,其特征在于,所述调用所述目标纠错库对所述可编辑文件纠错的步骤之后包括:
将经纠错的所述可编辑文件输出,并在接收到对所述输出的可编辑文件的修正操作时,将与修正操作对应的修正词传输到所述目标纠错库中,以对所述目标纠错库更新。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安普惠企业管理有限公司,未经平安普惠企业管理有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810430989.8/1.html,转载请声明来源钻瓜专利网。