[发明专利]一种基于多轮K-means算法的意图识别方法、装置和电子设备在审
申请号: | 202010728392.9 | 申请日: | 2020-07-24 |
公开(公告)号: | CN111966798A | 公开(公告)日: | 2020-11-20 |
发明(设计)人: | 孔醍;刘宗全;张家兴 | 申请(专利权)人: | 北京奇保信安科技有限公司 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F40/35;G06F16/35;G10L15/18 |
代理公司: | 北京清诚知识产权代理有限公司 11691 | 代理人: | 喻颖 |
地址: | 100015 北京市朝阳区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 means 算法 意图 识别 方法 装置 电子设备 | ||
1.一种基于多轮K-means算法的意图识别方法,应用于智能语音机器人中对用户意图的识别,其特征在于,包括:
建立样本数据集,该样本数据集包括多个由对话文本转化得到的语义向量,所述对话文本是用户与智能语音机器人进行对话时输入的语音所转化;
使用K-means算法对所述样本数据集进行多轮聚类处理,并输出初始的聚类结果;
对所有初始的聚类结果进行融合去噪,形成最终的聚类结果;
基于所述最终的聚类结果,对当前用户与智能语音机器人进行对话时输入的语音,进行意图识别。
2.根据权利要求1所述的意图识别方法,其特征在于:
所述多轮聚类处理的轮数为3至5轮。
3.根据权利要求1或2所述的意图识别方法,其特征在于,每一轮聚类处理包括:
设定初始k值;
随机产生k个类中心向量,使用K-means算法迭代更新该类中心向量,直到本次迭代时的类中心向量与上一次迭代时的类中心向量之间的距离小于指定阈值。
4.根据权利要求1至3中任一项所述的意图识别方法,其特征在于,使用K-means算法迭代更新该类中心向量包括:
计算样本到每个类中心向量的欧氏距离;
在样本到各类中心向量的欧氏距离中,将距离最小的类中心向量所在的类作为该样本在本次迭代中所归属的类;
将属于同一类的样本的均值向量作为下一轮迭代的类中心向量。
5.根据权利要求1至4中任一项所述的意图识别方法,其特征在于,对所有初始的聚类结果进行融合去噪,形成最终的聚类结果包括:
基于预定筛选规则,提取多轮聚类结果重叠部分的数据集合,并确定类集合的数量k′,以输出最终的聚类结果。
6.根据权利要求1至5中任一项所述的意图识别方法,其特征在于,
所述预定筛选规则包括设定参数指标,该参数指标包括纯度、噪音比率、轮廓系数、覆盖度占比;
判断各类集合的纯度是否达到纯度设定阈值,和/或判断各类集合的噪音比率是否小于噪音设定阈值。
7.根据权利要求1至6中任一项所述的意图识别方法,其特征在于,所述预定筛选规则还包括设定类集合内的最小样本数量阈值,将样本数量小于最小样本数量阈值的类集合作为噪声集合或去除集合。
8.一种基于多轮K-means算法的意图识别装置,应用于智能语音机器人中对用户意图的识别,其特征在于,包括:
建立模块,用于建立样本数据集,该样本数据集包括多个由对话文本转化得到的语义向量,所述对话文本是用户与智能语音机器人进行对话时输入的语音所转化;
聚类模块,用于使用K-means算法对所述样本数据集进行多轮聚类处理,并输出初始的聚类结果;
融合去噪模块,用于对所有初始的聚类结果进行融合去噪,形成最终的聚类结果;
识别模块,用于基于所述最终的聚类结果,对当前用户与智能语音机器人进行对话时输入的语音,进行意图识别。
9.一种电子设备,其中,该电子设备包括:
处理器;以及,
存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行根据权利要求1至7中任一项所述的基于多轮K-means算法的意图识别方法。
10.一种计算机可读存储介质,其中,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被处理器执行时,实现权利要求1至7中任一项所述的基于多轮K-means算法的意图识别方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京奇保信安科技有限公司,未经北京奇保信安科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010728392.9/1.html,转载请声明来源钻瓜专利网。