[发明专利]数据的搜索和匹配有效
申请号: | 201310044062.8 | 申请日: | 2013-02-04 |
公开(公告)号: | CN103970798B | 公开(公告)日: | 2019-05-28 |
发明(设计)人: | 黄欣荣 | 申请(专利权)人: | 商业对象软件有限公司 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F17/28;G06F17/22 |
代理公司: | 北京市柳沈律师事务所 11105 | 代理人: | 刘虹 |
地址: | 爱尔兰*** | 国省代码: | 爱尔兰;IE |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据 搜索 匹配 | ||
此处描述一种用于便利数据的搜索和匹配的技术。根据一个实施方式,提取第一特征集和第二特征集。第一特征集与包括一个或多个第一表意元素的输入数据串相关联,而第二特征集与包括一个或多个第二表意元素的候选串相关联。基于第一特征集和第二特征集来确定候选串的匹配分数。
技术领域
本公开一般涉及数据的搜索和匹配。
背景技术
搜索和匹配技术提供从数据库中检索数据的有用的方式。模糊串匹配(非精确或近似的串匹配)是找出与图样(pattern)近似匹配而不是精确匹配的串(或数据)的技术。模糊匹配的一个示例性应用是扩宽给定输入的搜索结果的范围。另一个示例性应用是对数据进行清洗并且标准化以提高其质量。例如,由于用户输入错误所以数据库中的一些数据可能是不正确的。错误的一般来源包括录入了与想要的数据“外形相似(look-like)”或“发音相似(sound-like)”的串。可以通过从与不正确的输入数据近似匹配的参考域(referenceuniverse)中检索候选记录来纠正这样的输入数据,并且在将不正确的输入数据存储在数据库中之前利用匹配的候选数据来替换不正确的输入数据。
一种模糊匹配技术是首先由Robert C.Russell和Margaret K.Odell在1918和1922年开发的Soundex算法。参见美国专利第1,261,167号和第1,435,663号,其通过引用包含于此。Soundex算法通过将同音字编码为相同的表示或关键字(key)而按照如英语中的发音的发声来索引数据,以使得尽管数据在拼写方面有微小差别也可以使它们匹配。为了比较两个给定串,可以确定Levenshtein距离(或编辑距离)。Levenshtein距离通过计算修改一个串以获得另一个串所需的编辑操作的最小数目来度量两个串之间的差别。然而,常规算法的问题是它们不太适合于诸如中文或日文字符的表意(ideographic)或非英语字符。常规语音算法中使用的语音规则被设计用于英语发音,而不是用于其他语言的发音。此外,传统的语音算法不考虑按照不同的方言组的可能的不同发音。更进一步的,计算Levenshtein距离的成本(cost)大约与两个串长度的乘积成比例,这使得其对于长串或大数据集来说是不切实际。
因此,存在对用于搜索和匹配表意和非英语字符的新的和创新的解决方案的需要。
发明内容
此处描述一种用于便于数据的搜索和匹配的计算机实现的技术。根据一个方面,提取第一特征集和第二特征集。第一特征集与包括一个或多个第一表意元素(ideographicelement)的输入数据串相关联,而第二特征集与包括一个或多个第二表意元素的候选串相关联。基于第一特征集和第二特征集来确定候选串的匹配分数。
根据本发明的另一方面,接收包括一个或多个第一表意元素的输入数据串。此外,接收包括一个或多个第二表意元素的候选串。提取与输入数据串相关联的第一特征集以及与候选串相关联的第二特征集。第一特征集和第二特征集包括语音特征和形状特征的n元(n-gram)。基于第一特征集和第二特征集确定候选串的匹配分数。
利用将在下文中变得清楚的这些和其它优点与特征,通过参照以下详细描述和所附权利要求与附图,可以获得进一步的信息。
附图说明
在附图中示出一些实施例,在附图中相同的参考标号标明相同的部分,其中:
图1是示出示范性系统的框图;
图2是示出示范性搜索和匹配架构的框图;
图3a示出语言文本到语音拼写(phonetic spelling)的示范性转换;
图3b示出语言文本到基于拉丁语的部首(radical)串的示范性转换;
图3c示出语言文本到基于拉丁语的笔划(stroke)串的示范性转换;
图4a示出示范性参考数据库的一部分;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于商业对象软件有限公司,未经商业对象软件有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310044062.8/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置