[发明专利]基于深度学习模型的语义分析方法、装置及存储介质在审
申请号: | 202111073356.4 | 申请日: | 2021-09-14 |
公开(公告)号: | CN113761942A | 公开(公告)日: | 2021-12-07 |
发明(设计)人: | 王章定;朱亚杰;王波;魏德山;马伯睿 | 申请(专利权)人: | 合众新能源汽车有限公司 |
主分类号: | G06F40/35 | 分类号: | G06F40/35;G06F16/35;G06K9/62;G06N3/08 |
代理公司: | 上海专利商标事务所有限公司 31100 | 代理人: | 杜娟;骆希聪 |
地址: | 314500 浙江省*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 深度 学习 模型 语义 分析 方法 装置 存储 介质 | ||
本发明涉及一种基于深度学习模型的语义分析方法及装置,该方法包括:从深度学习模型的训练文本数据中提取字向量;获取经训练的固定词向量;根据自定义规则修改固定词向量,包括为至少一个固定词向量增加至少一个特征标记形成特征词向量,每个特征标记用于标记固定词向量的一种分类;设置字向量的维度等于特征词向量的维度;采用字向量和特征词向量训练深度学习模型获得预测模型,其中,设置特征词向量在训练过程中不可被修改;根据自定义规则修改预输入至预测模型的新词向量,形成新特征词向量,并将新特征词向量输入预测模型。本发明实现了模型与知识的有机结合。
技术领域
本发明主要涉及计算机技术领域,具体地涉及一种基于深度学习模型的语义方法、装置及存储介质。
背景技术
在车载语音对话中,车机的语音系统需要根据用户的语音来识别用户的意图。例如,说“播放爱我中华”,该句子对应的分类是“音乐”,所要执行的动作是“播放”,所要播放的内容是歌曲“爱我中华”;说“导航到全聚德”,该句子对应的分类是“地图导航”,所要执行的动作是“导航”,所要到达的终点是“全聚德”等。当人听到这些句子时,可以根据已有的知识很快得知该句子的含义。但是对于机器来说,其本身并不具备这些知识,想要从一句语句中获得用户的意图,需要通过大量的数据进行训练和学习,才能获得正确的分类结果或识别结果。目前,在车载语音对话的识别中,可以采用深度学习模型来进行语义的分析,以获知用户的意图,并执行相应的命令。
由于深度学习模型是数据驱动的,模型的训练依赖于大量的数据和数据集。在实际应用中,除了数据集之外,经常有一些知识需要模型去学习,如专有名词等。在这种情况下,一般的做法是将这些知识人为的做成文本数据,或者收集包含这些知识的数据,然后再将这些数据增加到训练数据集中,重新进行模型训练和部署。然而,收集包含知识数据的方式效率低、成本高,而且有些相对特殊的数据本身就少,收集难度很大。如果使用人为制造的数据往往会破坏数据集本身的概率分布,同时人为制造的数据样本也不够丰富,容易导致模型过拟合等问题。所以,现有的做法不能有效的将知识与模型结合起来。
发明内容
本发明所要解决的技术问题是提供一种基于深度学习模型的语义分析方法、装置及存储介质,使知识有机地结合在模型中。
本发明提供一种深度学习模型的控制方法,所述方法包括:从深度学习模型的训练文本数据中提取字向量;获取经训练的固定词向量;根据自定义规则修改所述固定词向量,包括为至少一个所述固定词向量增加至少一个特征标记形成特征词向量,每个所述特征标记用于标记所述固定词向量的一种分类;设置所述字向量的维度等于所述特征词向量的维度;采用所述字向量和所述特征词向量训练所述深度学习模型获得预测模型,其中,设置所述特征词向量在训练过程中不可被修改;以及根据所述自定义规则修改预输入至所述预测模型的新词向量,形成新特征词向量,并将所述新特征词向量输入所述预测模型。
在本发明的一实施例中,根据自定义规则修改所述固定词向量的步骤包括:为每个所述固定词向量增加预定数量的新增维度,每个所述新增维度对应一个所述特征标记;设置每个所述新增维度的初始值为0;以及为每个所述固定词向量设置每个所述新增维度的特征值,所述特征值对应于所述固定词向量根据所述特征标记的分类结果。
在本发明的一实施例中,所述特征词向量的维度是2的N次方,N为正整数。
在本发明的一实施例中,设置所述特征词向量在训练过程中不可被修改的步骤包括:使所述特征词向量在所述训练过程中不参与反向传播。
在本发明的一实施例中,所述训练文本数据包括人机对话中的对话语料。
在本发明的一实施例中,所述对话语料包括句子,从深度学习模型的训练文本数据中提取字向量的步骤包括:对所述句子进行分字处理,通过随机初始化获得所述字向量。
在本发明的一实施例中,在设置所述字向量的维度等于所述特征词向量的维度的步骤之后还包括:堆叠所述字向量和所述特征词向量,使所述字向量和所述特征词向量合并为一个训练数据集。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于合众新能源汽车有限公司,未经合众新能源汽车有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111073356.4/2.html,转载请声明来源钻瓜专利网。