[发明专利]语句处理方法、装置及服务器和存储介质在审
申请号: | 201910731237.X | 申请日: | 2019-08-08 |
公开(公告)号: | CN110442718A | 公开(公告)日: | 2019-11-12 |
发明(设计)人: | 周辉阳 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/332 |
代理公司: | 深圳市深佳知识产权代理事务所(普通合伙) 44285 | 代理人: | 王仲凯 |
地址: | 518000 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语句 语料库 语义相似度 聚类结果 聚类 服务器 计算机可读存储介质 准确度 处理效率 存储介质 响应结果 申请 | ||
本申请公开了一种语句处理方法、装置、系统及一种服务器和计算机可读存储介质,该方法包括:对语料库中的每个候选语句在所述语料库中进行召回,得到每个所述候选语句对应的召回结果;计算每个语句对中两个语句之间的语义相似度作为第一语义相似度;其中,每个所述语句对包括所述候选语句和所述候选语句对应的召回结果;基于所述第一语义相似度对所述语料库进行聚类得到聚类结果,并确定所述聚类结果中每个类别的响应结果。由此可见,本申请提供的语句处理方法,提高了语句处理效率和语料库中语句聚类的准确度。
技术领域
本申请涉及计算机应用技术领域,更具体地说,涉及语句处理方法、装置及服务器和计算机可读存储介质。
背景技术
在问答对的建设过程中,线上问答对的数据质量和服务稳定想是核心竞争力所在。问答产品的逻辑建设往往是决定产品智能化程度的关键,在用户的实际体验中,所有用户对同一个问题有不同的问法。基于此,对于一些结构化知识的领域,产品对于相同意图和主题的回复都需要是统一的标注答案。
在相关技术中,对于语料库中语句的聚类方法如下:首先对语料库中的语句进行编辑距离的计算,编辑距离小于阈值则认为两条语句是同类的语料。此外,对整体的数据采用k-means(中文全称:k均值聚类算法,英文全称:k-means clustering algorithm)进行聚类处理。人工对两种不同的度量方式的结果进行审核,对于相同类别的语句统一撰写标准答案。但是,上述方案的聚类结果不准确,用户满意度较低。
因此,如何提高语料库中语句聚类的准确度是本领域技术人员需要解决的技术问题。
发明内容
本申请的目的在于提供一种语句处理方法、装置及一种服务器和一种计算机可读存储介质,提高了语料库中语句聚类的准确度。
为实现上述目的,本申请第一方面提供了一种语句处理方法,包括:
对语料库中的每个候选语句在所述语料库中进行召回,得到每个所述候选语句对应的召回结果;
计算每个语句对中两个语句之间的语义相似度作为第一语义相似度;其中,每个所述语句对包括所述候选语句和所述候选语句对应的召回结果;
基于所述第一语义相似度对所述语料库进行聚类得到聚类结果,并确定所述聚类结果中每个类别的响应结果。
结合本申请的第一方面,在本申请第一方面的第一种实施方式中,所述计算每个语句对中两个语句之间的语义相似度作为第一语义相似度,包括:
利用训练完成的Bert模型计算每个语句对中两个语句之间的语义相似度作为第一语义相似度。
结合本申请的第一方面,在本申请第一方面的第二种实施方式中,所述基于所述第一语义相似度对所述语料库进行聚类得到聚类结果包括:
确定在阈值范围内的第一语义相似度对应的语句对为候选语句对,利用所述候选语句对构建语句关系图;
对所述语句关系图进行图聚类得到聚类结果;其中,所述聚类结果中同一类别中的任意两个语句之间的语义相似度均在所述阈值范围内。
结合本申请的第一方面、本申请第一方面的第一种实施方式和本申请第一方面的第二种实施方式,在本申请第一方面的第三种实施方式中,还包括:
当接收到搜索语句时,在所述语料库中确定所述搜索语句对应的召回结果;
计算所述搜索语句与每个所述召回结果之间的语义相似度作为第二语义相似度;
基于所述第二语义相似度确定所述搜索语句所属的目标类别,并返回所述目标类别对应的响应结果。
为实现上述目的,本申请第二方面提供了一种语句处理装置,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910731237.X/2.html,转载请声明来源钻瓜专利网。