[发明专利]一种自然语言理解方法及基于该方法的旅游问答系统有效
申请号: | 201510282019.4 | 申请日: | 2015-05-28 |
公开(公告)号: | CN104850539B | 公开(公告)日: | 2017-08-25 |
发明(设计)人: | 李明;王靖波;娄旭芳 | 申请(专利权)人: | 宁波薄言信息技术有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30 |
代理公司: | 宁波奥圣专利代理事务所(普通合伙)33226 | 代理人: | 程晓明 |
地址: | 315040 浙江省宁波*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 自然语言 理解 方法 基于 旅游 问答 系统 | ||
技术领域
本发明涉及一种语言理解的处理方法,尤其是涉及一种自然语言理解方法及基于该方法的旅游问答系统。
背景技术
基于自然语言理解方法的问答系统可以理解用户以自然语言提出的问题,并给出相应的答案。这类系统不同于信息检索系统,它的回答不是可能答案列表而是准确和人性化的,机器智能化程度较高。根据问答系统所处理的领域范围可以分为开放领域的问答系统与专业领域的问答系统。开放领域问答系统是以非结构化的Internet资源为基础的问答系统;专业领域问答系统是基于结构化的涵盖一个或多个专业领域的知识库的专家问答系统。
自然语言理解是通过分析问题并计算问题与答句之间的语义距离,然后再按照语义相近行来提取答案的。一般过程为问题分析、语义匹配、答案抽取。问题分析通常采用各种自然语言处理技术对问题进行词法分析、句法分析、语义分析以及命名实体的识别处理,确定问题所关心的对象、所关注的事实和问题的类型,为语义匹配与答案抽取奠定基础。语义匹配是采用特有算法或规则对问题与答案进行语义距离计算,根据语义距离筛选出最佳答案,并得到抽取答案的路径或规则。答案抽取是根据语义匹配结果从知识库中按照答案抽取路径或规则抽取回答问题的答案。
现有的基于自然语言理解的问答处理存在的问题是:第一、答案是完全根据问题与答案语义匹配结果来获取,例如专利201310190366.5《一种自然语言的语义解析方法及装置》,如果问题分析错误必然会影响结果的准确性,给出的结果答非所问。第二、专业领域问答系统只提供该领域范围内的知识库,例如专利200810233734.9《基于本体推理的旅游问答系统答案抽取方法》只提供了旅游本体知识库,不能够回答超出范围的问题,或是在提问不清楚的情况下不能够得到答案,用户体验差。第三、答案模式是一问一答,一般都不考虑用户历史提问内容,即只能是回答针对问题本身提出的问题,因此得到的答案有时并不是用户期望的结果。
发明内容
本发明所要解决的技术问题是提供一种回答问题准确性高、涵盖范围广的自然语言理解方法及基于该方法的旅游问答系统。
本发明解决上述技术问题所采用的技术方案为:一种自然语言理解方法,包括构建数据库,理解问题和提取答案,具体步骤为:
1)构建用于存储领域范围内数据的知识库、用于存储字词集合和问题模板的语法库和用于存储非领域范围内问题与答案的非领域知识库,具体为:
1.1 构建知识库,将领域内的不同对象的描述数据存储到非结构化数据库mongodb中,每一个对象对应一张表,数据是作为对象的属性值即表的字段值;
1.2 构建语法库,将问题模板与字词集合存储到语法库,所述的字词集合包括关键字、领域内专业词语和普通字词,在问题模板中的问题小类索引与关键字之间建立映射;
1.3 构建非领域知识库,将常问问题与答案存储到非领域知识库中,其中,问题与答案之间具有映射关系;
2)对收到的原始问题先进行问题理解,具体步骤为:
2.1 先将问题与语法库中的领域内专业词语匹配,提取问题中的专业词语,再将剩余部分与普通字词匹配,通过上述的匹配将问题拆分为一组词语;
2.2 将拆分得到的词语与语法库中的关键字匹配,确定问题的关键字;
2.3 通过关键字与语法库中问题模板的问题小类索引之间的映射,得到问题所对应的问题分类,判断该问题分类是否是唯一问题分类,是唯一问题分类则作为待匹配问题分类进入步骤2.6,多于一个问题分类进入下一步骤,没有问题分类则进入步骤3.2;
2.4 判断是否为第一次提问,不是第一次提问进入下一步骤,是第一次提问,则选择第一个问题分类作为待匹配问题分类进入步骤2.6;
2.5 读取缓存中的数据,获得历史问题的类别、关键字、提问对象和经纬度,将它们作为条件对当前问题增加限定,过滤问题分类后再判断是否得到唯一问题分类,是唯一问题分类则作为待匹配问题分类进入下一步骤,不是唯一问题分类选择第一个问题分类作为待匹配问题分类进入下一步骤;
2.6 提取待匹配问题分类中的所有问题模板作为待匹配问题模板;
2.7 将步骤2.1得到的所有词语,逐个与语法库中的字词集合进行匹配,如果词语与字词集合匹配,用匹配得到的字词集合的名字替换该词语,如无匹配则词语不替换,最终得到新的问题;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于宁波薄言信息技术有限公司,未经宁波薄言信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510282019.4/2.html,转载请声明来源钻瓜专利网。