[发明专利]智能应答方法、电子装置及存储介质在审
申请号: | 201810134579.9 | 申请日: | 2018-02-09 |
公开(公告)号: | CN108345672A | 公开(公告)日: | 2018-07-31 |
发明(设计)人: | 于凤英;王健宗;肖京 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 深圳市沃德知识产权代理事务所(普通合伙) 44347 | 代理人: | 高杰;于志光 |
地址: | 518000 广东省深*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 咨询问题 相似度 应答 知识库 存储介质 倒排索引 电子装置 问题集合 查询 智能 预处理 经线 文本相似度 语义相似度 知识库构建 主题相似度 目标答案 句法 加权 答案 关联 输出 服务 | ||
1.一种智能应答方法,其特征在于,该方法包括以下步骤:
获取步骤:获取输入的咨询问题,对所述咨询问题进行预处理,所述预处理包括分词得到各词条、对每个词条进行词性标注和命名实体识别、从各词条中提取关键词,以及对所述咨询问题进行语句纠错;
构建步骤:对问答知识库中的每个问题和答案进行所述预处理,将经所述预处理后的每个问题和答案映射到倒排记录表中,从而为所述问答知识库构建倒排索引,通过倒排索引查询的方式从所述问答知识库中查询出与所述咨询问题相关的候选问题集合,所述问答知识库包括预先整理的多个问题以及每个问题关联的一个或多个答案;
计算步骤:针对所述候选问题集合中的每个候选问题,分别计算所述咨询问题与该候选问题的问题相似度,所述问题相似度由咨询问题和相应的候选问题之间的文本相似度、语义相似度、主题相似度和句法相似度经线性加权得到,其中所述文本相似度和语义相似度的权重均大于所述主题相似度和句法相似度的权重;
选择步骤:选择计算得到的最高问题相似度对应的候选问题,在问答知识库中查询所选择候选问题的一个或多个关联答案,将所述一个或多个关联答案中在预设时间段内输出频率最高的关联答案作为目标答案输出。
2.如权利要求1所述的智能应答方法,其特征在于,所述咨询问题和相应的候选问题之间的文本相似度的计算方法包括:
统计所述咨询问题与该候选问题之间的多个指定特征,对所述多个指定特征进行线性加权计算,得到咨询问题和相应的候选问题之间的文本相似度;
其中,所述多个指定特征包括:
咨询问题和该候选问题的共同关键词数量a1;
咨询问题和该候选问题的共同关键词长度a2;
咨询问题和该候选问题的共同词条的数量a3;
咨询问题和该候选问题的共同词条的长度a4;
咨询问题的长度a5;
该候选问题的长度a6。
3.如权利要求2所述的智能应答方法,其特征在于,所述对所述多个指定特征进行线性加权计算,得到咨询问题和相应的候选问题之间的文本相似度包括:
采用逆文档率算法计算每个指定特征的权重,对所述多个指定特征采用多元逻辑回归模型进行加权回归拟合计算,得到咨询问题与该候选问题的文本相似度g(z),公式如下:
g(z)=1/(1+ez),e为自然常数;
z=a1*x1+a2*x2+a3*x3+a4*x4+a5*x5+a6*x6;
其中,x1、x2...x6分别为所述a1、a2...a6的权重。
4.如权利要求1所述的智能应答方法,其特征在于,所述咨询问题和相应的候选问题之间的语义相似度的计算方法包括:
采用word2vec算法将咨询问题分词后的各词条表示为词向量,将咨询问题中各词向量取平均值得到咨询问题的句子向量;
采用word2vec算法将该候选问题分词后的各词条表示为词向量,将该候选问题中各词向量取平均值得到该候选问题的句子向量;
计算咨询问题的句子向量与该候选问题的句子向量之间的余弦相似度,得到咨询问题与该候选问题的语义相似度;
所述咨询问题和相应的候选问题之间的主题相似度的计算方法包括:
采用LDA线性判别分析的主题表达法,构建咨询问题的主题向量,以及该候选问题的主题向量;
计算咨询问题的主题向量与该候选问题的主题向量之间的余弦相似度,得到咨询问题与该候选问题的主题相似度;
所述咨询问题和相应的候选问题之间的句法相似度的计算方法包括:
采用LTP语言技术平台分析咨询问题和该候选问题的句法,得到咨询问题和该候选问题的句法向量;
计算咨询问题的句法向量与该候选问题的句法向量之间的余弦相似度,得到咨询问题与该候选问题的句法相似度。
5.如权利要求1所述的智能应答方法,其特征在于,所述预处理包括分词得到各词条、将分词后词条长度大于第一阈值的词条作为长切词、为所述长切词进行词性标注、通过隐马尔可夫模型对所述长切词进行命名实体识别从而识别出专有名词、采用TF-IDF算法从所述长切词中提取关键词、采用N-gram语言模型和编辑距离为所述咨询问题进行语句纠错处理。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810134579.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:文件存储方法、装置和终端
- 下一篇:在线成人教育高等院校定制化报表导出方法