[发明专利]语句处理方法、装置及服务器和存储介质在审
申请号: | 201910731237.X | 申请日: | 2019-08-08 |
公开(公告)号: | CN110442718A | 公开(公告)日: | 2019-11-12 |
发明(设计)人: | 周辉阳 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/332 |
代理公司: | 深圳市深佳知识产权代理事务所(普通合伙) 44285 | 代理人: | 王仲凯 |
地址: | 518000 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语句 语料库 语义相似度 聚类结果 聚类 服务器 计算机可读存储介质 准确度 处理效率 存储介质 响应结果 申请 | ||
1.一种语句处理方法,其特征在于,包括:
对语料库中的每个候选语句在所述语料库中进行召回,得到每个所述候选语句对应的召回结果;
计算每个语句对中两个语句之间的语义相似度作为第一语义相似度;其中,每个所述语句对包括所述候选语句和所述候选语句对应的召回结果;
基于所述第一语义相似度对所述语料库进行聚类得到聚类结果,并确定所述聚类结果中每个类别的响应结果。
2.根据权利要求1所述语句处理方法,其特征在于,所述对语料库中的每个候选语句在所述语料库中进行召回,得到每个所述候选语句对应的召回结果,包括:
去除语料库中的每个候选语句中的领域关键词,并将去除领域关键词后的候选语句在所述语料库中进行召回,得到每个所述候选语句对应的召回结果。
3.根据权利要求1所述语句处理方法,其特征在于,所述对语料库中的每个候选语句在所述语料库中进行召回,得到每个所述候选语句对应的召回结果,包括:
确定语料库中的每个候选语句所属的领域,在每个所述候选语句所属的领域对应的候选语料中对每个所述候选语句进行召回,得到每个所述候选语句对应的召回结果。
4.根据权利要求1所述语句处理方法,其特征在于,所述计算每个语句对中两个语句之间的语义相似度作为第一语义相似度,包括:
利用训练完成的Bert模型计算每个语句对中两个语句之间的语义相似度作为第一语义相似度。
5.根据权利要求4所述语句处理方法,其特征在于,所述利用训练完成的Bert模型计算每个语句对中两个语句之间的语义相似度作为第一语义相似度之前,还包括:
确定正样本语句对和负样本语句对;其中,所述正样本语句对中的两个语句属于相同的领域且包含相同的实体;
利用所述正样本语句对和所述负样本语句对训练Bert模型得到所述训练完成的Bert模型。
6.根据权利要求1所述语句处理方法,其特征在于,所述基于所述第一语义相似度对所述语料库进行聚类得到聚类结果包括:
确定在阈值范围内的第一语义相似度对应的语句对为候选语句对,利用所述候选语句对构建语句关系图;
对所述语句关系图进行图聚类得到聚类结果;其中,所述聚类结果中同一类别中的任意两个语句之间的语义相似度均在所述阈值范围内。
7.根据权利要求6所述语句处理方法,其特征在于,对所述语句关系图进行图聚类得到聚类结果,包括:
利用neo4j的并查集算法对所述语句关系图进行图聚类得到聚类结果。
8.根据权利要求1至7中任一项所述语句处理方法,其特征在于,还包括:
当接收到搜索语句时,在所述语料库中确定所述搜索语句对应的召回结果;
计算所述搜索语句与每个所述召回结果之间的语义相似度作为第二语义相似度;
基于所述第二语义相似度确定所述搜索语句所属的目标类别,并返回所述目标类别对应的响应结果。
9.根据权利要求8所述语句处理方法,其特征在于,还包括:
若不存在所述目标类别,则获取所述搜索语句对应的目标响应结果,并将所述搜索语句加入所述语料库中,以便在所述语料库的聚类结果中增加所述搜索语句对应的类别。
10.一种语句处理装置,其特征在于,包括:
召回模块,用于对语料库中的每个候选语句在所述语料库中进行召回,得到每个所述候选语句对应的召回结果;
第一计算模块,用于计算每个语句对中两个语句之间的语义相似度作为第一语义相似度;其中,每个所述语句对包括所述候选语句和所述候选语句对应的召回结果;
聚类模块,用于基于所述第一语义相似度对所述语料库进行聚类得到聚类结果,并确定所述聚类结果中每个类别的响应结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910731237.X/1.html,转载请声明来源钻瓜专利网。