[发明专利]用于表意字符分析的方法和介质有效
申请号: | 201580084629.1 | 申请日: | 2015-09-30 |
公开(公告)号: | CN109074355B | 公开(公告)日: | 2023-03-07 |
发明(设计)人: | 陈超;黄坤悟;戴宏涛;刘静静 | 申请(专利权)人: | 开文公司 |
主分类号: | G06F16/28 | 分类号: | G06F16/28;G06F16/22;G06F16/242;G06F16/2457 |
代理公司: | 中国贸促会专利商标事务所有限公司 11038 | 代理人: | 曾琳 |
地址: | 加拿大*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 表意 字符 分析 方法 介质 | ||
1.一种用于表意字符分析的方法,所述方法包括:
将用于执行文档搜索的原始搜索短语中包括的原始表意字符划分为多个笔画;
将所述多个笔画中的每个笔画映射到对应的笔画标识符id,以创建包括多个笔画标识符的原始笔画id序列;
选择具有距所述原始笔画id序列处于阈值距离内的候选笔画id序列的候选表意字符;
通过在所述原始搜索短语中用所述候选表意字符取代所述原始表意字符来创建新短语;
用所述原始搜索短语和所述新短语来查询存储有经字符辨认的文档的数据储存库,以获得所存储的经字符辨认的文档中与所述原始搜索短语匹配的文档和与所述新短语匹配的文档,其中,所存储的经字符辨认的文档中的至少一些具有错误识别的原始表意字符;
识别与所述原始搜索短语匹配的文档和与所述新短语匹配的文档的多个文档标识符;以及
呈现与所述多个文档标识符匹配的文档图像。
2.根据权利要求1所述的方法,其中,所述多个笔画标识符是多个数字。
3.根据权利要求1所述的方法,其中,选择候选表意字符包括:
将笔画id插入到所述原始笔画id序列中以创建所述候选笔画id序列;
根据所述候选笔画id序列识别所述候选表意字符。
4.根据权利要求3所述的方法,其中,所述笔画id被插入到多个位置中以创建包括所述候选笔画id序列的多个笔画id序列,并且其中,所述搜索是使用对应于所述多个笔画id序列的多个表意字符执行的。
5.根据权利要求1所述的方法,其中,选择候选表意字符包括:
从所述原始笔画id序列中删除笔画id以创建所述候选笔画id序列;
根据所述候选笔画id序列识别所述候选表意字符。
6.根据权利要求1所述的方法,其中,选择候选表意字符包括:
用候选笔画id取代所述原始笔画id序列中的原始笔画id以创建所述候选笔画id序列;
根据所述候选笔画id序列识别所述候选表意字符。
7.根据权利要求6所述的方法,其中,所述原始笔画id序列中的所述多个笔画标识符被取代以创建包括所述候选笔画id序列的多个笔画id序列,并且其中,所述搜索是使用对应于所述多个笔画id序列的多个表意字符执行的。
8.一种用于表意字符分析的方法,所述方法包括:
将原始表意字符划分为多个笔画;
将所述多个笔画中的每个笔画映射到笔画标识符id,以创建包括多个笔画标识符的原始笔画id序列;
选择具有距所述原始笔画id序列处于阈值距离内的候选笔画id序列的候选表意字符;
从由原始表意字符集合和候选表意字符集合组合成的短语集合中移除语法上错误的候选短语或原始短语;
选择相对于原始短语具有最小候选短语编辑距离的候选短语来在经字符辨认的文档中取代该原始短语,其中,候选短语的候选短语编辑距离指从原始短语到候选短语的表意字符上的笔画id序列的编辑距离的求和;以及
将所述经字符辨认的文档存储在数据储存库中以通过根据权利要求1所述的方法进行搜索。
9.根据权利要求8所述的方法,其中,所述多个笔画标识符是多个数字。
10.根据权利要求8所述的方法,其中,选择候选表意字符包括:
将笔画id插入到所述原始笔画id序列中以创建所述候选笔画id序列;
根据所述候选笔画id序列识别所述候选表意字符。
11.根据权利要求8所述的方法,其中,选择候选表意字符包括:
从所述原始笔画id序列中删除笔画id以创建所述候选笔画id序列;
根据所述候选笔画id序列识别所述候选表意字符。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于开文公司,未经开文公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201580084629.1/1.html,转载请声明来源钻瓜专利网。