[发明专利]一种用于多轮问答系统中缺失语义补充的方法有效
申请号: | 201510958743.4 | 申请日: | 2015-12-18 |
公开(公告)号: | CN105589844B | 公开(公告)日: | 2017-08-08 |
发明(设计)人: | 游世学;杜新凯 | 申请(专利权)人: | 北京中科汇联科技股份有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30 |
代理公司: | 北京庆峰财智知识产权代理事务所(普通合伙)11417 | 代理人: | 李文军 |
地址: | 100094 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 用于 问答 系统 缺失 语义 补充 方法 | ||
1.一种用于多轮问答系统中缺失语义补充的方法,其特征在于,包括以下步骤:
S1、获取用户在问答系统中输入的问题;
S2、根据用户输入的在先问题对当前问题进行缺失语义补充,所述缺失语义补充是从指代消解和/或省略恢复的角度进行语义补充;
S3、对缺失语义补充后的当前问题进行检索,
其中,所述步骤S2中的从指代消解的角度进行语义补充,具体包括以下步骤:
S21、根据用户在问答系统中输入的问题构建表述对;
S22、抽取表述对的特征,所述表述对的特征包括人工特征、词向量特征和交互特征中的一种或多种;
S23、根据表述对的特征进行指代词消解。
2.根据权利要求1所述的用于多轮问答系统中缺失语义补充的方法,其特征在于,所述步骤S21中构建表述对具体包括以下步骤:
S211、根据用户在问答系统中输入的问题,将指代词和候选先行语分别做集合;
S212、将指代词集合和候选先行语集合进行笛卡尔积运算,得到表述对集合。
3.根据权利要求1或2所述的用于多轮问答系统中缺失语义补充的方法,其特征在于,所述步骤S22中,人工特征包括14维指代词和10维先行语,且指代词和先行语的每一维均为布尔类型,其中14维指代词分别为“指人”、“指物”、“单数”、“复数”、“男”、“女”、“地点”、“时间”、“自己”、“专有名词”、“非人”、“非物”、“非地点”、“指机构”,10维先行语分别为“人”、“男”、“女”、“单数”、“复数”、“物品”、“机构团体”、“地名”、“新词”、“时间”。
4.根据权利要求1或2所述的用于多轮问答系统中缺失语义补充的方法,其特征在于,所述步骤S22中的词向量特征包括指代词词向量特征、先行语词向量特征、指代词上下文特征和先行语上下文特征,所述指代词词向量特征和先行语词向量特征分别为指代词和先行语的词向量,所述指代词上下文特征和先行语上下文特征由以下公式得到:
其中,w0,w1,…,wi,…,wm为一个句子中每个词的词向量,wi为待计算上下文特征的词的词向量,n为窗口大小,即包含候选词前后各n个词,k为窗口大小为n中所包含的词的个数,v为第i个词的上下文特征。
5.根据权利要求1或2所述的用于多轮问答系统中缺失语义补充的方法,其特征在于,所述步骤S22中的交互特征为指代词和先行语之间的交互信息,包括指代词和先行语所在的句子的偏移,指代词和先行语在句子中的偏移,指代词和先行语之间的句子距离和词距离,其中句子偏移和句子距离以句子为基本单位来计算,在句子中的偏移和词距离以词为单位计算。
6.根据权利要求1所述的用于多轮问答系统中缺失语义补充的方法,其特征在于,所述步骤S2中的从省略恢复的角度进行语义补充,具体包括以下步骤:
S24、根据用户在问答系统中输入的问题构建共现语言模型,并计算出共现语言模型中的候选目标词与当前句子中的词的共现概率;
S25、将计算结果分值最高的先行语作为最佳先行语进行省略恢复。
7.根据权利要求6所述的用于多轮问答系统中缺失语义补充的方法,其特征在于,所述步骤S24具体包括以下步骤:
S241、根据用户在问答系统中输入的问题进行词性标注;
S242、将词性标注为名词或动词作为候选目标词;
S243、在以所述候选目标词为中心的前后各n个词范围内,设计大小为n的滑动窗口;
S244、在所述滑动窗口中,以候选目标词为中心,从第一个词滑向最后一个词,依次统计出窗口中候选目标词与当前句子中的词的共现概率。
8.根据权利要求7所述的用于多轮问答系统中缺失语义补充的方法,其特征在于,所述步骤S244中共现概率由以下计算公式得到:
其中,wi为当前句子中出现的词,wj为候选目标词,W为词表,wk为词表W中从第一个词到最后一个词中的任意一个,c(wi,wj)表示wi和wj的共现计数。
9.根据权利要求8所述的用于多轮问答系统中缺失语义补充的方法,其特征在于,所述步骤S25具体为:将共现概率p(wi,wj)与概率阈值d进行比较,将p(wi,wj)>d且未在当前句子中出现的词作为最佳先行语,并将所述最佳先行语补充到当前句子中。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京中科汇联科技股份有限公司,未经北京中科汇联科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510958743.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:标题检索器
- 下一篇:一种电子文档的自动查错方法