[发明专利]数据搜索和匹配方法和系统有效
申请号: | 201010207109.4 | 申请日: | 2010-06-23 |
公开(公告)号: | CN102298582A | 公开(公告)日: | 2011-12-28 |
发明(设计)人: | 黄欣荣 | 申请(专利权)人: | 商业对象软件有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京市柳沈律师事务所 11105 | 代理人: | 邵亚丽 |
地址: | 爱尔兰*** | 国省代码: | 爱尔兰;IE |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据 搜索 匹配 方法 系统 | ||
1.一种用于便利数据匹配和搜索的计算机实施的方法,包括:
接收包括一个或多个表意元素的输入数据串;
将所述输入数据串转换成基于拉丁文的输入数据串;
根据所述基于拉丁文的输入数据串生成一个或多个输入键标;
在存储在存储器设备中的参考数据库中搜索由所述一个或多个输入键标中的至少一个索引的一个或多个候选记录;以及
如果找到一个或多个候选记录,则确定所述一个或多个候选记录的匹配分数。
2.如权利要求1所述的方法,其中,所述一个或多个表意元素包括一个或多个中文、日文、韩语或越南语字符。
3.如权利要求1所述的方法,其中,将输入数据串转换成基于拉丁文的输入数据串包括:将输入数据串转换成所述一个或多个表意元素的一个或多个语音拼写。
4.如权利要求3所述的方法,其中,生成一个或多个输入键标包括:基于所述一个或多个语音拼写中的至少一个生成语音键标。
5.如权利要求3所述的方法,其中,生成一个或多个输入键标包括:基于多个语音拼写生成多个语音键标。
6.如权利要求4所述的方法,其中,生成语音键标包括:从所述一个或多个语音拼写之一中去除任何不发音元素。
7.如权利要求6所述的方法,其中,所述不发音元素包括字母“H”、“G”、“I”或“U”。
8.如权利要求4所述的方法,其中,生成语音键标包括:替换所述一个或多个语音拼写之一中具有相应的音似元素的任何元素。
9.如权利要求1所述的方法,其中,将输入数据串转换成基于拉丁文的输入数据串包括:将输入数据串转换成一组或多组拉丁字符,其中,拉丁字符表示所述一个或多个表意元素的构成字根。
10.如权利要求9所述的方法,其中,生成一个或多个输入键标包括:基于所述一组或多组拉丁字符生成一个或多个字根键标。
11.如权利要求10所述的方法,其中,生成一个或多个字根键标包括:替换拉丁字符组中的、具有相应形似字根的字根所关联的任何拉丁字符。
12.如权利要求1所述的方法,其中,将输入数据串转换成基于拉丁文的输入数据串包括:将输入数据串转换成一组或多组拉丁字符,其中,拉丁字符表示所述一个或多个表意元素的构成笔划。
13.如权利要求12所述的方法,其中,所述构成笔划包括横、竖、撇、捺或折。
14.如权利要求13所述的方法,其中,生成一个或多个输入键标包括:基于所述一组或多组拉丁字符生成一个或多个笔划键标。
15.如权利要求14所述的方法,其中,生成一个或多个笔划键标包括:替换拉丁字符组中的、具有相应的形似笔划的笔划所关联的任何拉丁字符。
16.如权利要求1所述的方法,其中,所述参考数据库包括索引表,其中,该索引表中的每个记录包括标准键标、语音键标、字根键标、笔划键标、或它们的组合。
17.如权利要求1所述的方法,其中,搜索参考数据库包括:基于所述一个或多个输入键标中的至少一个发出查询语句。
18.如权利要求17所述的方法,其中,所述查询语句包括结构化查询语言SQL语句。
19.如权利要求1所述的方法,其中,确定匹配分数包括:确定所述基于拉丁文的输入数据串与所述一个或多个候选记录中的语言文本串的基于拉丁文的表示之间的编辑距离。
20.如权利要求19所述的方法,还包括将所述语言文本串转换成基于拉丁文的表示。
21.如权利要求20所述的方法,其中,所述基于拉丁文的表示包括所述语言文本串的语音拼写。
22.如权利要求20所述的方法,其中,所述基于拉丁文的表示包括一组拉丁字符,其中拉丁字符表示所述语言文本串的字根。
23.如权利要求20所述的方法,其中,所述基于拉丁文的表示包括一组拉丁字符,其中拉丁字符表示所述语言文本串的笔划。
24.如权利要求19所述的方法,其中,所述编辑距离包括Levenshtein距离。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于商业对象软件有限公司,未经商业对象软件有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010207109.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:信息管理系统及方法
- 下一篇:多管组合曲率补偿低压带隙基准源
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置