[发明专利]一种自动问答方法及系统无效
申请号: | 201010189290.0 | 申请日: | 2010-05-24 |
公开(公告)号: | CN102262634A | 公开(公告)日: | 2011-11-30 |
发明(设计)人: | 徐伯星;丛鹏飞;杭诚方;于雅洁;卢佳 | 申请(专利权)人: | 北京大学深圳研究生院 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 深圳鼎合诚知识产权代理有限公司 44281 | 代理人: | 龚安义 |
地址: | 518055 广东省*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 自动 问答 方法 系统 | ||
技术领域
本发明涉及计算机自然语言处理技术,具体是涉及一种基于资源库的自动问答方法及系统。
背景技术
随着互联网的普及,互联网上的信息越来越丰富,现在人们能够通过搜索引擎方便的得到自己想要的各种信息。比较有名的搜索引擎有Google、百度等。无论哪方面的内容,这些搜索引擎都能帮助人们快速地找到相关的网页。用户只需输入一些关键字,它们马上就会搜索出相关的网页。但是这些传统的搜索引擎存在很多不足的地方,一是相关性信息太多,返回大量的相关网页,用户很难快速准确地定位到所需的信息。二是以关键词组合来表达检索需求,由于人们的检索需求往往是非常复杂而特殊的,是无法以几个关键词的简单组合来表达的,这样用户都没有将自己的检索意图表达清楚,搜索引擎自然也就没有办法找出令用户满意的答案了,因此检索效果很难进一步提高。
自动问答(Question Answering,QA),是指根据用户的自然语言提出的问题找到一个明确的答案,是信息检索与自然语言处理相结合的研究领域。自动问答允许用户用自然语言提出问题,返回给用户一个准确的答案,更加方便用户信息获取的需求。可以说,问答系统就是新一代的搜索引擎。对于问答系统,用户不需要把自己的问题分解成关键字,用户可以把整个问题直接交给问答系统。问答系统结合自然语言处理技术,通过对问题理解,能够直接提交给用户想要的答案。问答系统就像一个知识渊博的专家,可以快速准确地回答任何问题。比如,用户提交一个问题“丹麦的首都是那座城市?”问答系统将会直接给出答案“丹麦的首都是哥本哈根”。可以看出,问答系统要比传统的搜索引擎方便、快捷、高效。
目前自动问答技术还处于起步阶段,离人工智能还有较大的差距,但其诱人的前景吸引着人们在该技术上的投入。现有的自动问答方法分三个过程,问题分析、信息检索和答案选择。问题分析把用户的自然语言提出的问题进行分词,提炼出关键词,并判断问题询问类型;信息检索是通过问题分析的关键词结果,在资源库中检索相关的段落作为答案材料;答案选择过程根据问题分析得到的问题询问类型,以及信息检索得到的答案材料,抽取准确的答案返回给用户。其中回答问题的资源库是固定的文档库,自动问答方法往往是基于此文档库,其直接决定自动问答方法的策略,进而影响回答的准确率和回答范围等性能指标。基于固定的文档库建立的自动问答方法,扩展性差;而基于Internet的自动问答方法,检索到的信息冗余过大,可能隶属多个主题信息,影响到答案的准确率。
现有的自动问答技术存在的一个问题是,问题分析过程中仅提炼出关键词,判断问题的询问类型,此分析结果无法代表整个问题,仅是问题的部分信息,导致现有的问答系统的正确率低。
发明内容
本发明要解决的问题是提出一种自动问答方法及系统,能更好的分析和理解问题,以提高答案的准确率。
本发明的技术方案是,这种自动问答方法包括步骤:1)问题分析步骤,先对自然语言问句进行分词,再利用问点/条件点识别模型对分词后得到的词语进行标识,识别出问句中的问点、条件点;2)信息检索步骤,利用标识的问点、条件点查询信息资源库,并抽取查询结果。
所述的信息资源库为结构化信息资源库。
上述自动问答方法中,从Internet网络上获取各个主题的结构化信息资源库。
所述步骤1)中采用问点/条件点数据结构表达所述的问点、条件点。
所述步骤2)中,将问点/条件点数据结构中的问点作为SQL查询的字段,将问点/条件点数据结构中的条件点作为SQL查询的条件。
一种自动问答系统,包括问题分析单元、信息检索单元和答案抽取单元;所述问题分析单元用于对自然语言问句进行分词,并利用问点/条件点识别模型对分词后的词语进行问点、条件点的标识;所述信息检索单元用于利用标识的问点、条件点查询信息资源库。
所述的信息资源库为结构化信息资源库。
本发明与现有技术对比所具有的有益效果是:将自然语言问题分析成问点、条件点的词语集合,区分问点和条件点在问句中的不同作用查询数据资源库,能更好地理解问题并提供准确的答案。结构化信息资源库可以通过Internet获取,主题清晰,信息丰富;通过计算机理解的数据结构来表示问点、条件点,并将问点、条件点与SQL查询语句匹配,可以更有效地提高自动问答答案的准确率,扩展自动问答的知识领域范围。
附图说明
图1是具体实施方式的问答过程示意图;
图2是具体实施方式中问句的识别结果示意图;
图3是具体实施方式中问点/条件点识别模型的生成过程示意图;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京大学深圳研究生院,未经北京大学深圳研究生院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010189290.0/2.html,转载请声明来源钻瓜专利网。