[发明专利]文本意图智能分类方法、装置及计算机可读存储介质在审
申请号: | 201910525743.3 | 申请日: | 2019-06-14 |
公开(公告)号: | CN110347789A | 公开(公告)日: | 2019-10-18 |
发明(设计)人: | 王健宗;程宁 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/35 |
代理公司: | 深圳市沃德知识产权代理事务所(普通合伙) 44347 | 代理人: | 于志光;高杰 |
地址: | 518000 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 文本集 意图识别 智能分类 词向量 计算机可读存储介质 原始文本 测试集 标签 人工智能技术 智能分类装置 标点符号 接收用户 输出判断 训练要求 停用词 训练集 去除 分类 退出 转换 | ||
本发明涉及一种人工智能技术,揭露了一种文本意图智能分类方法,包括:接收原始文本集及标签集,并对所述原始文本集去除停用词及标点符号得到初级文本集,将所述初级文本集转换为词向量文本集,并将所述词向量文本集分类成训练集和测试集,将所述测试集及所述标签集输入至意图识别模型中训练,直到所述意图识别模型满足训练要求后退出训练,接收用户的文本A,并将所述文本A转变为词向量文本A输入至所述意图识别模型进行文本意图判断,并输出判断结果。本发明还提出一种文本意图智能分类装置以及一种计算机可读存储介质。本发明可以实现精准的文本意图智能分类功能。
技术领域
本发明涉及人工智能技术领域,尤其涉及一种可用于智能化的文本意图分类方法、装置及计算机可读存储介质。
背景技术
目前,各个行业,特别是电商行业,智能回答系统都有了一定程度的普及。但目前的智能回答系统一般使用关键字规则或简单的检索来匹配答案后回答客户的问题,这样的回答方式往往答非所问,智能程度不够高,因此不能很好的解决客户所提出的问题,既浪费客户的时间,也浪费服务器的计算资源,并没有达到减轻人工客服压力的初衷。
发明内容
本发明提供一种文本意图智能分类方法、装置及计算机可读存储介质,其主要目的在于当用户输入文本数据时,对所述用户输入的文本进行意图判断并输出判断结果。
为实现上述目的,本发明提供的一种文本意图智能分类方法,包括:
步骤A:接收原始文本集及标签集,并对所述原始文本集去除停用词及标点符号得到初级文本集;
步骤B:将所述初级文本集转换为词向量文本集,并将所述词向量文本集分类成训练集和测试集;
步骤C:将所述训练集及所述标签集输入至预先构建的意图识别模型中训练,直到所述意图识别模型满足预设训练要求后退出训练;
步骤D:将所述测试集输入至所述意图识别模型中进行文本意图判断,计算对所述文本意图的判断结果与所述标签集中内容的匹配准确率,若所述匹配准确率小于预设准确率,返回步骤C,若所述匹配准确率大于所述预设准确率,所述意图识别模型完成训练;
步骤E:接收用户的文本,并将所述文本转变为词向量文本输入至所述意图识别模型进行文本意图判断,并输出判断结果。
可选地,所述将所述初级文本集转换为词向量文本集包括:
确定所述初级文本集内每个词语ω在所述初级文本集的出现位置 Context(ω);
基于所述出现位置Context(ω)做累加求和操作得到累加求和矩阵Xω,并根据所述Xω建立概率模型;
根据所述概率模型建立对数似然函数,并最大化所述对数似然函数得到所述词向量文本集。
可选地,所述概率模型为:
其中,p(ω|Context(ω))为所述概率模型,Context为所述初级文本集,ω为所述初级文本集内每个词语,表示在路径pω内,第j个结点对应的Huffman 编码,表示路径pω内,第j个非叶子结点对应的向量。
可选地,所述对数似然函数ζ:
其中,ζ为所述对数似然函数,是包含了所述初级文本集所有内容的集合,其中,所述对数似然函数ζ基于所述概率模型可进一步扩展为:
其中,lω表示所述路径pω中包括结点的数量,σ为阈值函数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910525743.3/2.html,转载请声明来源钻瓜专利网。