[发明专利]检索方法、检索系统以及自然语言理解系统无效
申请号: | 201310184544.3 | 申请日: | 2013-05-17 |
公开(公告)号: | CN103218463A | 公开(公告)日: | 2013-07-24 |
发明(设计)人: | 张国峰;朱逸斐 | 申请(专利权)人: | 威盛电子股份有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京市柳沈律师事务所 11105 | 代理人: | 钱大勇 |
地址: | 中国台*** | 国省代码: | 中国台湾;71 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 检索 方法 检索系统 以及 自然语言 理解 系统 | ||
技术领域
本发明涉及一种检索技术,特别是涉及一种对结构化数据库进行全文检索的检索方法、检索系统以及自然语言理解系统。
背景技术
在计算机的自然语言理解(Nature Language Understanding)中,通常会使用特定的语法来抓取用户的输入语句的意图或信息。因此,若数据库中储存有足够多的用户输入语句的数据,便能做到合理的判断。
在现有的作法中,有一种是利用内置的固定词列表来抓取用户的输入语句,而固定词列表中包含了特定的意图或信息所使用的特定用语,而用户需依照此特定用语来表达其意图或信息,其意图或信息才能被系统正确识别。然而,迫使用户去记住固定词列表的每个特定用语是相当不人性化的作法。例如:现有技术使用固定词列表的实施方式,要求用户在询问天气的时候必须说:“上海(或北京)明天(或后天)天气如何?”,而若用户使用其他比较自然的口语化表达也想询问天气状况时,比如是“上海明天怎么样啊?”,因为语句中未出现“天气”,所以现有技术就会理解成“上海有个叫明天的地方”,这样显然没有抓到用户的真正意图。另外,用户所使用的语句种类是十分复杂的,并且又时常有所变化,甚至有时用户可能会输入错误的语句,在此情况下必须要藉由模糊匹配的方式来抓取用户的输入语句。因此,仅提供僵化输入规则的固定词列表所能达到的效果就更差了。
此外,当利用自然语言理解来处理多种类型的用户意图时,有些相异的意图的语法结构却是相同的,例如当用户的输入语句为我要看三国演义,其用户意图有可能是想看三国演义的电影,或是想看三国演义的书,因此通常在此情况中,便会匹配到两种可能意图来让用户做选择。然而,在很多情况下,提供不必要的可能意图来让用户做选择是十分多余且没效率的。例如,当用户的输入语句为我想看超级星光大道时,将使用者的意图匹配为看超级星光大道的书或者画作是十分没必要的(因为超级星光大道是电视节目)。
再者,一般而言,在全文检索中所获得的搜寻结果是非结构化的数据。非结构化数据内的信息是分散且不具关联的,例如,在google或百度等搜寻引擎输入关键字后,所获得的网页搜寻结果就是非结构化数据,因为搜寻结果必须通过人为的逐项阅读才能找到当中的有用信息,而这样的作法不仅浪费用户的时间,而且可能漏失想要的信息,所以在实用性上会受到很大的限制。
发明内容
本发明提供一种检索方法以及检索系统,其对结构化数据库进行全文检索,而使全文检索所获得的搜寻结果是非常有意义的结构化的数据。
本发明又提供一种自然语言理解系统,藉由对结构化数据库进行全文检索来辅助判断用户的请求信息所表示的意图。
本发明提出一种检索系统,其包括:结构化数据库以及搜寻引擎。结构化数据库储存具有多个记录。搜寻引擎对结构化数据库进行全文检索,其中结构化数据库每个记录内部的所包含的数值数据相互间具有关联性,且数值数据共同用以表达来自用户的请求信息对该记录的意图。该搜寻引擎用以对该结构化数据库进行一全文检索,其中在该数值数据被匹配时,对应于该数值数据的指引数据被输出以确认该请求信息的意图。
本发明提出一种自然语言理解系统,其包括:自然语言处理器、知识辅助理解模块以及检索系统。自然语言处理器将用户的请求信息,分析成至少一可能意图语法数据,每一可能意图语法数据包括至少一关键字及意图数据。耦接至自然语言处理器的知识辅助理解模块用以求得至少一可能意图语法数据中的确定意图语法数据,以表达用户的请求信息的意图。前述检索系统包括结构化数据库以及搜寻引擎。结构化数据库储存多个记录。搜寻引擎对结构化数据库进行全文检索。知识辅助理解模块传送关键字给检索系统,藉由检索系统的回应,以辅助求得确定意图语法数据。
本发明提出一种检索方法,此方法首先提供结构化数据库,此结构化数据库储存具有多个记录。而后,对结构化数据库进行全文检索。
根据本发明的一实施例中,前述的每个记录包括了标题字段,此标题字段内包括至少一分字段,每一分字段包括指引字段以及数值字段,前述记录的指引字段储存指引数据,前述记录的数值字段储存数值数据。
根据本发明的一实施例中,前述的每个记录还包括内容字段,前述记录的内容字段储存前述记录的内容细节数据。
根据本发明的一实施例中,当前述记录的标题字段中储存有多个分字段的数据时,于各分字段的数据间储存第一特殊字符,用以分隔各分字段的数据,于指引字段与数值字段的数据间储存第二特殊字符,用以分隔指引字段与数值字段的数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于威盛电子股份有限公司,未经威盛电子股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310184544.3/2.html,转载请声明来源钻瓜专利网。