[发明专利]近似比对装置、近似比对方法、程序及记录介质有效
申请号: | 200980133344.7 | 申请日: | 2009-05-19 |
公开(公告)号: | CN102138141A | 公开(公告)日: | 2011-07-27 |
发明(设计)人: | 斋藤邦子;今村贤治;菊井玄一郎;松尾义博 | 申请(专利权)人: | 日本电信电话株式会社 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/21 |
代理公司: | 中国国际贸易促进委员会专利商标事务所 11038 | 代理人: | 孙蕾 |
地址: | 日本*** | 国省代码: | 日本;JP |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 近似 装置 方法 程序 记录 介质 | ||
技术领域
本发明涉及为了从用自然语言记述的文章(输入字符串)中提取预先给予的关键字,而对输入字符串和规定的关键字进行比对,输出一致的关键字和其出现位置的技术。
背景技术
<关键字提取>
关键字提取是从用自然语言记述的输入字符串中提取如词典那样的预先列入表中的关键字的任务。
例如,考虑从图1所示的输入字符串中提取涉及奥运会的关键字。这种情况下,通过进行如图2所示那样的、作为想提取的关键字预先通过手工列入表中的关键字集合(以下,称为关键字词典)中的各关键字是否包含在上述输入字符串中的比对,进行提取。
但是,存在以下问题:
1.因为输入字符串是由手工记述(输入)的字符串,所以包含错字和漏字、或者使用与设想的关键字稍有不同的表现是常有的事;
2.如果关键字数量增多,则快速提取变得困难,处理大量的输入字符串需要时间。
当从图1的输入字符串中提取图2的关键字词典中的各关键字的情况下,
·在语句2中,因错字的原因,“オリンピツク”变成“オソンピツク”;
·在语句3、4中,因为“男子100m平泳ぎ”记述成“男子の100m平泳ぎ”,“金メダル”记述成“メダル”,以稍有不同的表现来进行记述,所以,不能从语句2、3、4中提取关键字,其结果,只能从语句1中提取关键字“オリンピツク”。
【现有技术】
(1)关键字的近似比对
以往,作为关键字的近似比对方法使用标准表现。标准表现通过用有限自动机表现想比对的关键字,从而可以从字符串中提取稍有不同的部分字符串。这在编程语言Perl等中使用。例如,在Perl的情况下,通过将“オリンピツク”这一关键词表现为/オ.{1}ンピツク,能够从图1的语句1中提取「オリンピツク」,从语句2中提取「オソンピツク」。
但是,采用标准表现进行的关键字近似比对因为对每一个关键字重复进行比对,所以需要花费与关键字数量成比例的时间,如果关键字的数量庞大则比对速度降低。因此,在从大量文本提取全部关键字那样的任务中,存在花费处理时间的问题。
另外,在标准表现之外,还可以使用采用计算2个对象物间的相似度的DP(Dynamic Programming,动态规划)的匹配法(参照非专利文献1),但是因为必须对每个关键字进行DP匹配,所以存在关键字数量为大量的情况下处理速度显著下降的问题。
(2)高速的完全一致比对:其1,trie(特里)结构
当关键字数量庞大的情况下,通过将关键字词典设置成trie结构(参照非专利文献2),能够同时比对全部的关键字。trie结构是合并各关键字的共同前缀的树结构。在图3中表示将图2的关键字词典设置成trie结构的词典(trie词典)的例子。关键字的各字符作为trie的枝表现。图中的“#”是表示关键字结尾的终端记号,能够在trie的节点上为每个关键字保持不同的值。
使用trie词典的关键字提取通过从输入字符串的开头开始一边一次移动一个字符一边和trie词典进行比对来进行。而且,在本说明书以及权利要求书中,对于全部的字符串,将字符串的最初的字符标记为第0个字符,将下一字符标记为第1个字符等。例如,字符串的位置i是将该字符串的最初的字符设置为第0个字符的第i个字符的位置。此外,在位置i等中的i是字符串的位置的值。进而,还有只用“字符串的位置”表示字符串的位置的值的情况。
图4表示采用trie结构的比对算法。在采用trie结构的比对中,如图4所示,对于输入字符串全部的字符位置i,重复进行步骤s1~步骤s5的处理。
首先,将关键字比对位置j设置为0,通过将trie节点n设置成根节点进行初始化(步骤s1)。接着,进行在节点n的枝上是否有终端记号#的判定(步骤s2),如果有终端记号#,则输出从根节点开始的路径上的所有枝标签、值、一致开始位置i(步骤s3)。
在步骤s2的判定中,当在节点n的枝上没有终端记号#的情况下,进行在输入字符串中的位置i+j的字符Ci+j是否在从trie节点n分叉的枝标签上的判定(步骤s4)。
在步骤s4中,当字符Ci+j不在从trie节点n分叉的枝标签上的情况下,对输入字符串的下一字符位置重复进行从步骤s1开始的处理。在步骤s4中,当字符Ci+j在从trie节点n分叉的枝标签上的情况下,将j设置成j+1,将n更新为该枝的顶端的节点并进入步骤s2(步骤s5)。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于日本电信电话株式会社,未经日本电信电话株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200980133344.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:适于防红外辐射的电子装置盖板
- 下一篇:热泵装置