[发明专利]一种基于多轮K-means算法的意图识别方法、装置和电子设备在审
申请号: | 202010728392.9 | 申请日: | 2020-07-24 |
公开(公告)号: | CN111966798A | 公开(公告)日: | 2020-11-20 |
发明(设计)人: | 孔醍;刘宗全;张家兴 | 申请(专利权)人: | 北京奇保信安科技有限公司 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F40/35;G06F16/35;G10L15/18 |
代理公司: | 北京清诚知识产权代理有限公司 11691 | 代理人: | 喻颖 |
地址: | 100015 北京市朝阳区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 means 算法 意图 识别 方法 装置 电子设备 | ||
本发明提供了一种基于多轮K‑means算法的意图识别方法、装置和电子设备。该方法包括:建立样本数据集,该样本数据集包括多个由对话文本转化得到的语义向量,所述对话文本是用户与智能语音机器人进行对话时输入的语音所转化;使用K‑means算法对样本数据集进行多轮聚类处理,并输出初始的聚类结果;对所有初始的聚类结果进行融合去噪,形成最终的聚类结果;基于最终的聚类结果,对当前用户与智能语音机器人进行对话时输入的语音,进行意图识别。本发明的方法采用改进了的K‑means算法,进行多轮聚类处理,并对多轮聚类的聚类结果进行融合去噪,实现了更精确的意图分类和识别,提高了意图聚类质量,还优化了方法。
技术领域
本发明涉及计算机信息处理领域,具体涉及一种基于多轮K-means算法的意图识别方法、装置和电子设备。
背景技术
随着互联网技术的发展,对话系统在电商、智能设备等方面有着广泛的应用,越来越引起人们的关注。意图识别是对话系统中首要且重要的任务,并且是一个多分类问题,相应地,需要使用一个多分类的模型来做对应的处理。事实上,分类问题是机器学习的基本问题,与其对应的还有回归、聚类等等。
聚类,就是将已有的数据对象进行分类,让每一类内部之间的相似度尽可能的大,每一类外部之间的相似度尽可能的小。一般情况下,在对数据进行划分的过程中,只靠信息之间简单的相似性作为准则,没有任何背景知识和相应的假设,不需要定义类别和性质,按照自然属性进行分类,由此,聚类分析被认为是一种无监督分析方法。聚类在许多领域中都得到应用,如:生物学,统计学,神经网络,信息检索,图像处理和数据挖掘。但是,如何利用这些领域知识来提高聚类分析的质量,是半监督聚类分析的重要研究内容。
现有的聚类算法一般分为五类,分别是划分方法,层次方法,基于密度的方法,基于网格的方法和基于模型的方法。其中,最经典的k-means算法是基于划分的聚类方法。传统的k-means聚类算法是一种无监督学习方法,它按照基础优化准则对数据进行分类,通过最自然的相关性,没有考虑用户真实世界提供的任何知识。但是,在应用的聚类质量和方法优化方面仍存在很大改进空间。
因此,有必要提供一种聚类质量更高且更优化的基于多轮K-means算法的意图识别方法。
发明内容
为了解决上述问题,本发明提供了一种基于多轮K-means算法的意图识别方法,应用于智能语音机器人中对用户意图的识别,包括:建立样本数据集,该样本数据集包括多个由对话文本转化得到的语义向量,所述对话文本是用户与智能语音机器人进行对话时输入的语音所转化;使用K-means算法对所述样本数据集进行多轮聚类处理,并输出初始的聚类结果;对所有初始的聚类结果进行融合去噪,形成最终的聚类结果;基于所述最终的聚类结果,对当前用户与智能语音机器人进行对话时输入的语音,进行意图识别。
优选地,所述多轮聚类处理的轮数为3至5轮。
优选地,每一轮聚类处理包括:设定初始k值;随机产生k个类中心向量,使用K-means算法迭代更新该类中心向量,直到本次迭代时的类中心向量与上一次迭代时的类中心向量之间的距离小于指定阈值。
优选地,使用K-means算法迭代更新该类中心向量包括:计算样本到每个类中心向量的欧氏距离;在样本到各类中心向量的欧氏距离中,将距离最小的类中心向量所在的类作为该样本在本次迭代中所归属的类;将属于同一类的样本的均值向量作为下一轮迭代的类中心向量。
优选地,对所有初始的聚类结果进行融合去噪,形成最终的聚类结果包括:基于预定筛选规则,提取多轮聚类结果重叠部分的数据集合,并确定类集合的数量k′,以输出最终的聚类结果。
优选地,所述预定筛选规则包括设定参数指标,该参数指标包括纯度、噪音比率、轮廓系数、覆盖度占比;判断各类集合的纯度是否达到纯度设定阈值,和/或判断各类集合的噪音比率是否小于噪音设定阈值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京奇保信安科技有限公司,未经北京奇保信安科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010728392.9/2.html,转载请声明来源钻瓜专利网。