[发明专利]用于基于聚类和句子相似度来生成答案的系统和方法有效

申请号：	202080000548.X	申请日：	2020-03-09
公开（公告）号：	CN111448561B	公开（公告）日：	2022-07-05
发明（设计）人：	李斯佳;王广涛;郭进	申请（专利权）人：	北京京东尚科信息技术有限公司;京东美国科技公司
主分类号：	G06F16/33	分类号：	G06F16/33;G06F16/332;G06F16/335;G06F16/35
代理公司：	中科专利商标代理有限责任公司 11021	代理人：	纪雯
地址：	100086 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	用于基于句子相似生成答案系统方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种生成问题的答案的方法，包括：

由计算设备接收由用户输入的关于产品的问题；

由所述计算设备使用所述问题从问答QA知识库中提取目标答案以形成答案集；

由所述计算设备从评论数据库中提取关于所述产品的用户评论以形成评论集；

由所述计算设备对所述答案集中的关键词进行聚类以获得集群中心；

由所述计算设备使用所述集群中心对所述答案集和所述评论集进行过滤，以得到答案子集和评论子集；以及

由所述计算设备从所述评论子集中生成所述问题的答案，其中，所述答案选自所述评论子集并与所述答案子集中的句子具有较高的句子相似度。

2.根据权利要求1所述的方法，其中，从所述QA知识库中提取答案的步骤包括：

计算所述由用户输入的问题与所述QA知识库中的问题之间的句子相似度；以及

将所述QA知识库中的问题中的具有计算出的相似度中的最大相似度的一个问题定义为最相似问题，其中所述目标答案是所述最相似问题的答案。

3.根据权利要求2所述的方法，其中，计算所述由用户输入的问题与所述QA知识库中的答案中的一个之间的句子相似度的步骤包括：

使用word2vec模型将所述由用户输入的问题分解为词向量v_A1，v_A2，...，v_Am，并使用所述word2vec模型将所述QA知识库中的答案中的所述一个分解为词向量v_B1，v_B2，...，v_Bn，其中，所述由用户输入的问题由S_A表示并包括m个词，且所述QA知识库中的答案中的所述一个由S_B表示并包括n个词；

计算S_A中的向量中的一个与S_B中的向量中的一个之间的相似度距离s(v_i，v_j)，其中，i为A1至Am中的一个，且j为B1至Bm中的一个；

计算针对词向量v_i的逆文档频率IDF：其中，C为所述评论数据库中的评论的总数，且C_i为所述评论数据库中包含与所述词向量v_i相对应的词在内的评论的总数；以及

使用下式来计算S_A与S_B之间的句子相似度：

4.根据权利要求1所述的方法，其中，对所述答案集中的所述关键词进行聚类以获得所述集群中心的步骤包括：

将所述答案集中的关键词转换为关键词向量；

通过下式来计算关键词向量i中的一个的K-密度其中，是所述关键词向量i的K-密度，d_i，j是所述关键词向量i与关键词向量j中的一个之间的距离，K是预定的正整数，以及从1到K的所述关键词向量j是所述关键词向量i的最近邻居；

通过下式来计算基于密度的最小距离其中，l是所述关键词向量中具有比K-密度高的K-密度且与所述关键词向量i最近的一个关键词向量；

针对每个关键词向量i通过下式来计算关键词向量乘积x_i：以及

基于所述关键词向量乘积的值，将多个关键词向量选择为集群中心，其中，所述集群中心的关键词向量乘积的值大于非集群中心的关键词向量乘积的值。

5.根据权利要求4所述的方法，其中，基于所述关键词向量乘积的从低到高的值以整数1至n依次对所述关键词向量编索引，具有最高关键词向量乘积的非集群中心具有索引o，并且

x_o+1-x_o≥1.5×(x_o+2-x_o+1)。

6.根据权利要求4所述的方法，其中，K是并且n是所述答案集中的所述关键词的总数。