[发明专利]一种自然语言搜索的方法和装置无效
申请号: | 200810224341.1 | 申请日: | 2008-10-17 |
公开(公告)号: | CN101414310A | 公开(公告)日: | 2009-04-22 |
发明(设计)人: | 李茹;刘开瑛;由丽萍;王文晶;高俊杰;王瑞波;吕国英;谷波;李双红;钟立军;彭洪宝;陈雪艳;郭海旭;宋小香;邢欣;刘海静;郭韦昱;孙占虎 | 申请(专利权)人: | 山西大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京同达信恒知识产权代理有限公司 | 代理人: | 黄志华 |
地址: | 030006*** | 国省代码: | 山西;14 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 自然语言 搜索 方法 装置 | ||
技术领域
本发明涉及自然语言搜索技术领域,特别是关于一种自然语言的搜索方法和装置。
背景技术
在现有技术中常用的搜索技术主要是基于关键字匹配或主题分类,但是由于缺乏语义信息,缺乏知识理解和推理能力,存在搜索返回信息包括大量的无关信息,并且返回信息还存在质量低及信息丢失、查准率的精度不够等问题,其主要原因是因特网在信息表达和检索方面存在的缺陷,没有提供给计算机足够的可读信息,限制了计算机在检索中的自动分析能力。
现有技术中采用的方法是,首先对用户的搜索输入进行语义分析,配合词性标注,找出对搜索引擎有意义的关键词。然后再对业务数据的索引文件进行检索。
如在搜索中输入“从包头怎么去五台山?”,可以依据汉语词典对句子进行语义的拆分,即分词成:“包头”、“怎么去”、“五台山”这些正是语义的主体,也是自然语言搜索需要的关键词。因为对于搜索而言,被搜索内容事先已经按词典里的词条进行索引的创建。所以,在搜索时返回的答案可能是包头的相关信息、五台山的相关信息、同时也包括用户需要查询的从包头怎么去五台山的信息。可见现有技术中因为没有对用户输入的语义进行准确的理解,所以在返回的信息时,不能及时准确的反馈用户所需要的信息。
发明内容
本发明提供一种自然语言的搜索方法和装置,用于解决现有技术进行自然语言搜索时,只是为查询用户返回大量的相关网页的问题。
一种自然语言搜索的方法,包括:
A、构建汉语框架知识库CFN和专业领域知识本体库,所述汉语框架知识库中保存具有相同语义的多个词元、框架以及构成框架的框架元素,其中所述框架用于表述所述相同语义;
B、针对查询用户输入的搜索语句,将所述搜索语句中的至少一个动词与汉语框架知识库中的词元进行匹配,找到所述动词所属的框架,并根据所述框架中包含的框架元素对所述搜索语句进行标注;
C、选择所述动词中的一个作为语义谓词,并根据所述标注从所述搜索语句中提取出所述语义谓词以及该语义谓词的主体和/或客体生成三元组;
D、将所述三元组作为查询输入,利用所述专业领域知识本体库生成候选答案集。
其中,所述汉语框架知识库中的内容由语义Web标记语言描述。
所述汉语知识框架库包括框架库、句子库和词元库:
所述框架库是以框架为单位,保存框架的定义、构成框架的框架元素以及框架和框架之间的关系;
所述句子库记录带有框架语义标注信息的句子,所述带有框架语义标注信息的句子是按照框架库所提供的框架和框架元素标注句子的框架语义信息和句法信息;
所述词元库保存每个框架所涉及到的词元。
其中,构建专业领域知识本体库,具体步骤包括:
参照与专业领域相关的分类体系标准构建该领域的本体模型;
通过本体编辑工具把本体库内各知识条目的概念、各知识条目的关系以及实例用语义Web标记语言表示,并存储为计算机可读的文档格式。
所述步骤B之后,进一步包括:
当搜索语句中有多个动词时,将每个动词与本体库中的条目关系进行比对得到所述动词的语义指数,并根据所述语义指数选择动词作为所述语句的语义谓词,所述语义指数用于衡量动词的重要性。
其中,所述步骤D,包括:
根据所述标注从所述搜索语句中提取具有语义信息的三元组;
根据所述三元组生成查询语句,在本体库中查找与该三元组匹配的相关内容;
如果查找成功则生成候选答案集;如果查找失败,则利用相应的查询规则创建推理机进行推理,并生成相应的数据模型进行查询,查询成功后生成相应的候选答案集。
所述生成候选答案集之后,进一步包括:
对候选答案集中的答案进行排序,并将排序后的答案返回给查询用户。
进一步,当用户输入的搜索语句为问句时,在生成三元组之后,包括:
进行问句分析,提取所述问句的疑问词和疑问意向词,得到该问句的询问信息;
将所述询问信息和三元组作为查询输入,利用所述专业领域本体库生成候选答案集。
根据上述方法,本发明还提供一种自然语言搜索装置,包括:
存储模块,用于存储汉语框架知识库CFN和专业领域知识本体库,所述汉语框架知识库中保存具有相同语义的多个词元、框架以及构成框架的框架元素,其中所述框架用于表述所述相同语义;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山西大学,未经山西大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200810224341.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种存储管理的方法、系统和存储设备
- 下一篇:一种单板及提高其可靠性的方法