[发明专利]一种用于多轮问答系统中缺失语义补充的方法有效
申请号: | 201510958743.4 | 申请日: | 2015-12-18 |
公开(公告)号: | CN105589844B | 公开(公告)日: | 2017-08-08 |
发明(设计)人: | 游世学;杜新凯 | 申请(专利权)人: | 北京中科汇联科技股份有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30 |
代理公司: | 北京庆峰财智知识产权代理事务所(普通合伙)11417 | 代理人: | 李文军 |
地址: | 100094 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 用于 问答 系统 缺失 语义 补充 方法 | ||
技术领域
本发明涉及信息处理技术领域,尤其涉及一种用于多轮问答系统中缺失语义补充的方法。
背景技术
自动问答系统,又称QA(Question Answering)系统,可称为新一代的搜索引擎,用户不需要把自己的问题分解成关键字,可把整个问题直接交给该系统,既能用自然语言句子提问,又能为用户直接返回答案,可更好地满足用户的检索需求,因此,自动问答系统成为企业智能客服的首选,但是该系统目前还存在一些缺点,例如用户每次输入的语句都彼此独立,不能建立准确的上下文语境,因而对用户而言,每次检索必须输入语义完整的问句,与人的语言行为相违背。根据上文信息建立语境,从指代和省略两个角度,对当前提问信息进行语义补充,从而允许用户可以使用省略句进行提问,提高人机交互的流畅性和准确性,提供更好的用户体验。
在交互式问答中,人们在提问的同时,会建立相应的语境,在这个语境中的接下来的问题,往往会出现指代和省略现象,由此造成单个提问语义缺失的问题,给问题检索带来大量的麻烦。语义缺失主要包括以下两种情况:
1.指代型语义缺失。用户输入问题上下文相关,为保障上下文连贯性,后一个问题与前一个问题之间存在指代关系,即后一个问题中存在某个指代词指代前一个问题中的名词,由此造成指代型语义缺失,例如,连续两个问题:“朝阳区海关可以办理什么业务?”,“它的电话是多少?”。在后一个问题中,“它”指代的是“朝阳区海关”,缺失语义“朝阳区海关”信息。
2.省略型语义缺失。用户输入问题上下文相关,后一个问题中应该具备的成分,有时出于上下文连贯性的需要,在后一个问句中并不出现,构成省略型语义缺失,例如,连续两个问题:“银行卡转账如何办理?”,“收费吗?”。第二个问句中省略了主语“银行卡转账”,缺失“银行卡转账”信息。
目前的检索系统,依然要求用户输入语义完整的句子,对于语义缺失的句子并不能有效找到正确答案,如百度研发的小度机器人,虽然针对客观问题有极高的准确率,但不能准确检索出多轮问答中存在语义缺失问题的答案。
发明内容
本发明所要解决的技术问题在于如何克服现有技术中在多轮问答系统中,对于语义缺失的句子无法找到正确答案的缺陷。
为了解决上述技术问题,本发明提供了一种用于多轮问答系统中缺失语义补充的方法,其特征在于,包括以下步骤:
S1、获取用户在问答系统中输入的问题;
S2、根据用户输入的在先问题对当前问题进行缺失语义补充,且所述缺失语义补充是从指代消解和/或省略恢复的角度进行语义补充;
S3、对缺失语义补充后的当前问题进行检索。
进一步地,所述步骤S2中的从指代消解的角度进行语义补充,具体包括以下步骤:
S21、根据用户在问答系统中输入的问题构建表述对;
S22、抽取表述对的特征,所述表述对的特征包括人工特征、词向量特征和交互特征中的一种或多种;
S23、根据表述对的特征进行代词消解。
进一步地,所述步骤S21中构建表述对具体包括以下步骤:
S211、根据用户在问答系统中输入的问题,将指代词和候选先行语分别做集合;
S212、将指代词集合和候选先行语集合进行笛卡尔积运算,得到表述对集合。
进一步地,所述步骤S22中,人工特征包括14维指代词和10维先行语,且指代词和先行语的每一维均为布尔类型,其中14维指代词分别为“指人”、“指物”、“单数”、“复数”、“男”、“女”、“地点”、“时间”、“自己”、“专有名词”、“非人”、“非物”、“非地点”、“指机构”,10维先行语分别为“人”、“男”、“女”、“单数”、“复数”、“物品”、“机构团体”、“地名”、“新词”、“时间”。
进一步地,所述步骤S22中的词向量特征包括指代词词向量特征、先行语词向量特征、指代词上下文特征和先行语上下文特征,所述指代词词向量特征和先行语词向量特征分别为指代词和先行语的词向量,所述指代词上下文特征和先行语上下文特征由以下公式得到:
其中,w0,w1,…,wi,…,wm为一个句子中每个词的词向量,wi为待计算上下文特征的词的词向量,n为窗口大小,即包含候选词前后各n个词,k为窗口大小为n中所包含的词的个数,v为第i个词的上下文特征。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京中科汇联科技股份有限公司,未经北京中科汇联科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510958743.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:标题检索器
- 下一篇:一种电子文档的自动查错方法