[发明专利]一种基于问答系统的信息匹配方法及系统无效

专利信息
申请号: 201010166275.4 申请日: 2010-04-28
公开(公告)号: CN102236677A 公开(公告)日: 2011-11-09
发明(设计)人: 徐伯星;卢佳;杭诚方;于雅洁;丛鹏飞 申请(专利权)人: 北京大学深圳研究生院
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 深圳鼎合诚知识产权代理有限公司 44281 代理人: 宋鹰武
地址: 518055 广东省*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 问答 系统 信息 匹配 方法
【说明书】:

技术领域

发明涉及搜索引擎技术,具体的说,涉及一种基于问答系统的信息匹配方法及系统。

背景技术

有研究表明,面对互联网的海量用户信息,大多数用户都将搜索引擎作为访问互联网以获取信息的起点。传统搜索引擎以网页搜索为主,大多采用关键字匹配的方式返回包含所搜索关键词的网页列表,由用户点击网页后查看。随着科技的不断发展,手机、PDA(个人数据助理)等手持设备逐渐普及,越来越多的用户通过手持设备访问互联网,传统搜索引擎的弊端也开始显现。手持设备的屏幕大小和通信效率对信息容量的限制,使得传统搜索引擎所返回的网页列表不适用于展示给用户。问答系统是解决这一矛盾的方案之一。

问答系统和传统网页搜索的区别在于,用户可以以自然语言形式的句子向系统提问,系统分析用户问题后,精确的返回用户问题的答案。例如,用户希望搜索问题:“中国最长的河是哪条?”传统网页搜索返回的可能是包含“中国”、“最长”、“河”、“哪里”等关键字的网页地址,用户需要点击网页后自己查找答案。而利用问答系统,将直接返回用户答案“长江”。避免了二次浏览,提高了用户体验。

目前的问答系统不管采用何种方法进行答案检索,大都会配备问答知识库,该知识库往往存储一些常用问题,问题的答案采用自动爬取或专家维护的方式得到。在用户提问的时候,如果问题和知识库中的问题匹配成功,则直接返回知识库中的答案。知识库的结构多为一对一的问答对形式,即例如:问题是“中国最长的河是哪条”,答案是“长江”,这样的一组问答作为知识库中的一组问答对,知识库中存储有多组这样的常问问题的问答对。问答系统根据用户的提问在知识库中搜索与用户提问最匹配的知识库中的问题形式,进而给出该问题的答案。

在基于知识库的问句匹配方法里,从排序上来说,已有的方法集中在语义、语法及传统信息论排序方法等三个方面。传统的信息论排序方法,如在网页搜索中常用的TF-IDF值排序方法在问句匹配中作用有限。由于问答系统的问句往往比较短,词频信息在问句中比较集中也比较少,多是1-2次,因此很难体现出TF-IDF在词频信息上所包含的意义。

利用语义匹配度的排序方法(包括利用语义信息计算距离的向量空间方法)一般需要遍历候选集,存在时间复杂度高的问题。且语义距离信息目前为止质量并不高,可靠性和覆盖性限制了适用范围。

基于语法信息匹配度的排序方法,由于汉语的灵活性和语法不严格性,往往是对前两种方法的补充,提取1-2个明显的语法特征用于计算排序,并不能单独用于排序方法,且同样存在计算复杂和精度不高的问题,会直接影响排序结果。

综上,现有技术中,问答系统中的信息匹配,具体说,问句信息的匹配方法仍然存在不少的缺陷,匹配精度和匹配效率都有待提高。

发明内容

本发明所要解决的技术问题是,提供一种基于问答系统的信息匹配方法及系统,能够高效准确的实现基于问答系统的信息匹配。

为解决上述技术问题,本发明采用了以下技术方案:

一种基于问答系统的信息匹配方法,包括:

为问答系统知识库中的问答对配置用户交互行为表征参数,并根据用户交互行为反馈信息对所述用户交互行为表征参数进行动态更新,所述用户交互行为反馈信息为对问答系统的提问信息响应的反馈;

根据用户输入的提问信息在问答系统知识库中获取问题候选集,以所述问题候选集中的各条问题信息的用户交互行为表征参数为索引,对所述问题候选集中的各条问题信息进行排序,向用户返回排序在前的预定数量的问题信息。

在本发明的一种实施例中,按照如下方式更新所述用户交互行为表征参数:如果用户交互行为反馈信息为正反馈,提高用户交互行为表征参数;如果用户交互行为反馈信息为负反馈,降低用户交互行为表征参数。

在本发明的一种实施例中,还包括:设置惩罚因子,以加权用户交互行为反馈信息对用户交互行为表征参数的降低程度。

在本发明的一种实施例中,根据用户输入的提问信息在问答系统知识库中获取问题候选集通过如下方式进行:

利用自然语言技术对用户提问信息进行语法分析,按照语法分析从用户提问信息中提取出关键词;

在问答系统知识库中检索包含所述关键词的问题信息,按照预设的关键词覆盖率阈值,将达到或超过所述关键词覆盖率阈值的问题信息选出形成所述问题候选集。

在本发明的一种实施例中,所述用户交互行为表征参数为全局频率与关键词覆盖率的乘积。

在本发明的一种实施例中,所述用户交互行为表征参数通过网页、WAP网页、或手机短信传递。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京大学深圳研究生院,未经北京大学深圳研究生院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201010166275.4/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top