[发明专利]一种自动问答系统及方法有效
申请号: | 200610090738.7 | 申请日: | 2006-06-28 |
公开(公告)号: | CN101097573A | 公开(公告)日: | 2008-01-02 |
发明(设计)人: | 杨海松 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/00 |
代理公司: | 北京集佳知识产权代理有限公司 | 代理人: | 沈泳;逯长明 |
地址: | 518044广东省深圳市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 自动 问答 系统 方法 | ||
技术领域
本发明涉及计算语言学,具体地说涉及一种自动问答系统。本发明同时提供一种自动问答方法,以及一种更新所述自动问答系统的推理知识库的方法。
背景技术
自动问答系统又称QA(automatic Question Answering)系统,它采用自然语言处理技术,一方面完成对用户问题的分析处理;另一方面完成正确答案的生成。自动问答系统以自然语言理解技术为核心,涉及到计算语言学、信息科学和人工智能等多门学科,是计算机应用研究的热点之一。
衡量自动问答系统的技术指标主要包括自动问答系统的准确率和自动问答系统的召回率。
所谓自动问答系统的准确率,是指自动问答系统做出正确应答的次数占总共应答次数的比率。例如用户向自动问答系统输入了100个句子,该自动问答系统做出了100次应答,其中有20次是正确的,那么这个机器人系统的准确率就是20%。
自动问答系统的召回率,是指自动问答系统做出正确应答的次数占知识库中存在正确应答数目的比率。例如用户向机器人输入了100个句子,机器人做出了100次应答,其中有20次是正确的,但是用户输入的100个句子中,知识库中只有其中25个句子的正确应答存在,那么这个机器人系统的招回率就是80%。
自然语言理解技术是实现自动问答系统的前提,它使计算机能够理解和运用人类的自然语言,实现人与计算机之间基于自然语言的有效通信,直接影响自动问答系统的准确率和召回率。
人类使用的自然语言有数千种之多,每种自然语言都有各自的特点。自然语言理解技术必然与所针对的特定自然语言的特点密切相关。现有的中文自动问答系统大多参考国外一些优秀的英文自动问答系统,采用简单的模式匹配技术实现对自然语言的理解。但是与英文相比,中文具有用词灵活、句法复杂多变的特点,并不适合简单的模式匹配技术,导致中文自动问答系统普遍存在中文知识库的覆盖面窄、系统的准确率和招回率都很低的问题,对用户体验造成了伤害。
例如,一种常用的中文自动问答系统,其基本的算法就是从第一个词开始,对用户当前输入的句子和知识库中预先存储的句子进行匹配,如果两个词相同就继续下一个词的匹配,中间可能利用任意词通配符来忽略掉用户输入的句子中存在的一些不太关键的词,重复这一过程直到整个用户输入的句子匹配完毕。如果匹配成功,就将知识库中的句子所对应的系统应答返回给用户。下面举例说明采用上述简单的模式匹配技术实现的中文自动问答系统的缺点。
假设自动问答系统的推理知识库中存在以下一组问答语句对,其中包括一个用户输入的自然语言句子(以下简称设定问句)和系统应答(以下简称答句):
●问答语句对一
■设定问句:你喜欢看春节联欢晚会吗?
■答句:是啊,你怎么知道的?
当用户输入“你喜欢看春节联欢晚会吗?”的时候,系统会找到这组问答语句对,并将该问答语句对的答句取出返回给用户。但是,当用户输入“你喜欢看春晚吗?”的时候,因为“春晚”和“春节联欢晚会”无法匹配成功,所以系统无法找到合适的回答,从而返回了错误的答句(可能是系统缺省的应答)。但是实际上,“春晚”和“春节联欢晚会”在语义上一致的,例子中的系统应答就是用户输入的正确应答。
在该现有问答系统中解决这种问题,就必须在推理知识库中再构造一组问答语句对如下:
●问答语句对二
■设定问句:你喜欢看春晚吗?
■答句:是啊,你怎么知道的?
假如系统中有100个有关春节联欢晚会的知识点,则每个知识点都必须构造类似上面的两组问答语句对。但是,由于中文的同义词现象非常普遍,而且用词灵活多变,所以通过增加更多的问答语句对来解决该问题,无论是从工作量还是系统效率的角度来看,都是不可接受的。
从上述例子可以看出:简单的模式匹配技术会导致搭建推理知识库的工作量巨大,且覆盖面窄,系统的准确率和招回率都很低,对用户体验造成了很大的伤害。
发明内容
针对上述缺陷,本发明解决的技术问题在于,提供一种自动问答系统,该系统可以解决简单的模式匹配方法造成的问题,减少搭建推理知识库的工作量,提高系统的准确率和召回率。该系统尤其适合中文等词与词之间没有明显分界的语言。本发明同时提供一种自动问答方法,以及一种更新推理知识库的方法。
本发明提供的自动问答系统,包括接口单元、分词单元、推理单元、语言知识库、推理知识库,还包括:
关键词归一化表,用于存储同义关键词的分组,并在每一组同义词中确定一个关键词,作为该组同义词的归一化词;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200610090738.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:刺血针装置
- 下一篇:用于确定等离子体特性的方法