[发明专利]近似比对装置、近似比对方法、程序及记录介质有效
申请号: | 200980133344.7 | 申请日: | 2009-05-19 |
公开(公告)号: | CN102138141A | 公开(公告)日: | 2011-07-27 |
发明(设计)人: | 斋藤邦子;今村贤治;菊井玄一郎;松尾义博 | 申请(专利权)人: | 日本电信电话株式会社 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/21 |
代理公司: | 中国国际贸易促进委员会专利商标事务所 11038 | 代理人: | 孙蕾 |
地址: | 日本*** | 国省代码: | 日本;JP |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 近似 装置 方法 程序 记录 介质 | ||
1.一种近似比对装置,对用自然语言表述的输入字符串和规定的关键字进行比对,输出一致的关键字和该关键字的出现位置,该近似比对装置的特征在于具备:
跳跃词典存储单元,针对预先给予的关键字,存储包含删除关键字的跳跃词典,该删除关键字由关键字自身、和从该关键字的全部字符位置至少删除1个字符后的字符串的集合组成;
关键字提取单元,通过比对上述输入字符串和存储在上述跳跃词典存储单元中的上述跳跃词典,从输入字符串提取预先给予的关键字以及与该关键字近似的关键字,并与该关键字的出现位置一同进行输出。
2.根据权利要求1所述的近似比对装置,其特征在于:
上述删除关键字由上述预先给予的关键字自身、和从该关键字的全部的字符位置pk起删除了连续的wk字后的字符串的集合组成,其中,1≤wk≤N,N是关键字的删除最大字符数量,
上述跳跃词典对于上述集合中的各删除关键字的每一个,包含该删除关键字的删除字符位置pk、删除字符数量wk以及作为该删除关键字的根源的关键字即原关键字的组,作为该删除关键字的值。
3.根据权利要求2所述的近似比对装置,其特征在于:
上述关键字提取单元具有跳跃输入/跳跃词典比对单元,
该跳跃输入/跳跃词典比对单元对上述输入字符串和存储在上述跳跃词典存储单元中的跳跃词典进行比对,对于与跳跃词典一致的全部关键字候补,如果删除关键字的删除字符数量wk为0,则分类为表示“关键字在输入字符串中完全一致地出现”的一致类型EM,如果删除关键字的删除字符数量wk比0大,则分类为表示“在输入字符串中存在删除字符的状态下和关键字一致”的一致类型DEL,将分类的结果作为一致类型,将一致类型、输入字符串中的一致开始位置、结束位置、错误开始位置、错误字符数量、原关键字存储在存储单元中,
制成一边使输入字符串的绝对跳跃位置p一次增加一个一边以跳跃幅度wi字进行了跳跃的字符串即跳跃输入,比对各跳跃输入和上述跳跃词典,对于和跳跃词典一致的全部关键字候补,计算在关键字上的相对跳跃位置pi,如果删除关键字的删除字符数量wk是0,则分类成表示“在输入字符串中存在插入字符的状态下和关键字一致”的一致类型INS,如果删除关键字的删除字符数量wk大于0、并且输入字符串的相对跳跃位置pi和删除关键字的删除字符位置pk相等、并且输入字符串的跳跃宽度wi和删除关键字的删除字符数量wk相等,则分类为表示“在输入字符串中存在置换字符的状态下和关键字一致”的一致类型REP,将分类的结果作为一致类型,将一致类型、输入字符串中的一致开始位置、结束位置、错误开始位置、错误字符数量以及原关键字存储在存储单元中,其中,1≤wi≤N,N是输入字符串的最大跳跃幅度。
4.根据权利要求3所述的近似比对装置,其特征在于:
上述关键字提取单元进一步具有重复删除单元,该重复删除单元从上述存储单元中读出上述跳跃输入/跳跃词典比对单元输出的关键字候补的集合,生成删除了重复的关键字候补的关键字的集合并输出。
5.根据权利要求3或者4所述的近似比对装置,其特征在于:
上述跳跃词典中的删除关键字具有trie结构,
上述跳跃词典/跳跃词典比对单元在上述输入字符串和上述跳跃词典的比对中,从上述输入字符串的开头开始一边一次移动一个字符一边和上述跳跃词典进行比对,得到一致的关键字,并且预先保存在输入字符串的各字符位置上的关键字比对失败位置的值,
上述跳跃输入/跳跃词典比对单元在上述跳跃输入和上述跳跃词典的比对中,只在绝对跳跃位置的值大于等于上述输入字符串的字符位置的值或者小于等于将字符位置的值和关键字比对失败位置的值相加得到的值的情况下进行比对。
6.根据权利要求3或者4所述的近似比对装置,其特征在于:
上述跳跃词典中的删除关键字具有trie结构,
上述跳跃词典/跳跃词典比对单元在上述输入字符串和上述跳跃词典的比对中,用AC法比对输入字符串和跳跃词典,得到一致的关键字,并且预先保存在输入字符串的各字符位置上的上述trie结构的节点号码,
上述跳跃输入/跳跃词典比对单元在上述跳跃输入和上述跳跃词典的比对中,从上述绝对跳跃位置起再次开始采用AC法的比对,直到上述trie结构的节点转移到根节点为止进行比对。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于日本电信电话株式会社,未经日本电信电话株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200980133344.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:适于防红外辐射的电子装置盖板
- 下一篇:热泵装置