[发明专利]指代词恢复方法、装置、对话机器人及存储介质有效
申请号: | 202011083035.8 | 申请日: | 2020-10-12 |
公开(公告)号: | CN112231451B | 公开(公告)日: | 2023-09-29 |
发明(设计)人: | 方春华 | 申请(专利权)人: | 中国平安人寿保险股份有限公司 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F40/216;G06F40/289;G06F40/30 |
代理公司: | 北京市京大律师事务所 11321 | 代理人: | 姚维 |
地址: | 518033 广东省深圳市福田区益田路5033号*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 指代 恢复 方法 装置 对话 机器人 存储 介质 | ||
1.一种指代词恢复方法,应用于对话机器人,其特征在于,所述指代词恢复方法包括:
获取所述对话机器人中当前待处理的多轮对话,并确定所述多轮对话中的指代词;
基于所述指代词,将所述多轮对话划分为上文话术和下文话术,其中所述下文话术为包含所述指代词的句子;
利用关键词提取算法,提取所述上文话术的关键词集合;
调用汉语分词工具对所述下文话术的所有句子进行分词,并对分词进行过滤处理,得到下文文本序列;
将所述关键词集合中的关键词依次替换所述下文话术中的指代词,并通过预置的语言模型,计算替换后的句子的出现概率;
将替换后的句子的出现概率进行相互比较,选择其中所述出现概率最大的一个句子作为目标句子,并替换与其对应的指代词的句子,得到目标下文话术;
所述利用关键词提取算法,提取所述上文话术的关键词集合包括:
利用汉语分词工具对所述上文话术进行分词,并通过预设的停词表对分词后的上文话术句子进行过滤,得到上文文本序列;
调用互点信息算法,计算所述上文文本序列中各分词的词频,并基于所述词频确定每个分词的概率;
根据所述概率提取出所述上文话术的至少一个关键词,形成关键词集合;
所述调用互点信息算法,计算所述上文文本序列中各分词的词频,并基于所述词频确定每个分词的概率包括:
筛选出所述上文文本序列中的提问分词,并基于所述提问分词从语料库中匹配出对应的答案关键词;
计算所述提问分词和答案关键词在所述语料库中出现的概率;
基于所述提问分词的概率和所述答案关键词的概率,计算出所述上文文本序列中分词的概率;
所述基于所述提问分词的概率和所述答案关键词的概率,计算出所述上文文本序列中分词的概率包括:
计算所述提问分词和所述答案关键词在所述语料库中一个对话话术的上下文同时出现的次数;
计算所述对话话术的提问话术和回答话术中相配对的提问词语和答案词语的总配对数;
根据所述次数和总配对数,计算所述提问分词和所述答案关键词同时出现的出现概率;
计算所述提问分词在所述语料库中提问句子中出现的提问概率,以及计算所述答案关键词在所述语料库中答案句子中出现的答案概率;
根据所述出现概率、提问概率和答案概率,计算所述上文文本序列中分词的概率。
2.根据权利要求1所述的指代词恢复方法,其特征在于,所述根据所述出现概率、提问概率和答案概率,计算所述上文文本序列中分词的概率包括:
将所述出现概率除以所述提问概率与所述答案概率的乘积,得到概率比例;
计算所述概率比例的对数,得到所述上文文本序列中分词的概率。
3.根据权利要求1或权利要求2所述的指代词恢复方法,其特征在于,所述通过预置的语言模型,计算替换后的句子的出现概率包括:
对替换后的句子进行分词,得到分词序列;
利用N-gram模型计算所述分词序列中第一分词的第一概率;
利用N-gram模型计算所述分词序列中相邻量两个分词的组合概率;
根据所述第一概率和组合概率,确定所述替换后的句子的出现概率。
4.根据权利要求3所述的指代词恢复方法,其特征在于,所述根据所述第一概率和组合概率,确定所述替换后的句子的出现概率包括:将所述第一概率和所述分词序列中所有相邻的两个分词组合的组合概率相乘,得到所述出现概率。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国平安人寿保险股份有限公司,未经中国平安人寿保险股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011083035.8/1.html,转载请声明来源钻瓜专利网。