[发明专利]一种基于录音对话的自然语言理解模型的建立方法有效
申请号: | 201910960980.2 | 申请日: | 2019-10-11 |
公开(公告)号: | CN110728145B | 公开(公告)日: | 2023-08-29 |
发明(设计)人: | 崔晶晶;左琦 | 申请(专利权)人: | 集奥聚合(北京)人工智能科技有限公司 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F16/35;G06F18/214;G06F18/241;G06N3/0464;G06N3/08 |
代理公司: | 北京瑞盛铭杰知识产权代理事务所(普通合伙) 11617 | 代理人: | 李绩 |
地址: | 100024 北京市朝*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 录音 对话 自然语言 理解 模型 建立 方法 | ||
1.一种基于录音对话的自然语言理解模型的建立方法,其特征在于,包括如下步骤:
步骤S1,获取针对一个拨叫方的多组对话录音的音频数据,将所述对话录音的音频数据转换为文字数据;
步骤S2,向所述拨叫方和多个接听方分配对应的ID,将每组对话的文字数据根据ID进行划分;其中,将每组对话的文字数据根据ID进行划分后,对对话文字中连续出现的ID的对话内容进行合并;
步骤S3,然后根据文字内容设置标签;
步骤S4,将设置标签后的文字数据进行数据清洗,划分数据集为训练集和测试集;训练集是指学习样本数据集,通过匹配一些参数来建立一个分类器;建立一种分类的方式,用来训练模型;测试集是测试训练好的模型的分辨能力,判断预测结果与真实结果的误差;
步骤S5,将训练集放入预设训练模型中进行训练,输出模型;其中,所述预设训练模型为TextCNN模型;预先设定默认值,向预设训练模型中输入训练集数据进行训练,训练出来的模型经过测试集进行验证,然后修改参数并同时检测准确率,选取准确率最高的参数为最终的参数;所述参数包括:词向量的维度、词汇表的大小、句子的长度、CNN过滤器的大小、CNN过滤器的个数、dropout的阈值、学习率、卷积核大小、学习率下降的梯度、梯度下降的阈值、l2正则化项值、训练批次、每批次样本个数。
2.如权利要求1所述的基于录音对话的自然语言理解模型的建立方法,其特征在于,在所述步骤S3中,所述标签内容包括:品质违规、业务违规、负面风险、话术流程、施压话术。
3.如权利要求1所述的基于录音对话的自然语言理解模型的建立方法,其特征在于,在所述步骤S4中,将清洗后的数据中80%的数据划分为训练集,20%的数据划分为测试集。
4.如权利要求3所述的基于录音对话的自然语言理解模型的建立方法,其特征在于,划分为训练集和测试集后,将中文进行分词,然后对词做编码。
5.如权利要求1所述的基于录音对话的自然语言理解模型的建立方法,其特征在于,采用TextCNN模型进行训练,包括如下步骤:
首先,对输入矩阵进行卷积操作,经过卷积操作后得到k个向量,采用不同大小的卷积核,从输入文本中提取特征;
然后,对卷积操作的输出进行max-pooling操作;将k个标量数字拼接起来,组成一个向量表示最后提取的特征;
最后,在接一个全联接层作为输出层,得到模型的输出。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于集奥聚合(北京)人工智能科技有限公司,未经集奥聚合(北京)人工智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910960980.2/1.html,转载请声明来源钻瓜专利网。