[发明专利]一种单词识别方法、装置、计算机设备和存储介质有效
申请号: | 202010762981.9 | 申请日: | 2020-07-31 |
公开(公告)号: | CN111914535B | 公开(公告)日: | 2023-03-24 |
发明(设计)人: | 李志韬;王健宗;吴天博;程宁 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G06F40/211 | 分类号: | G06F40/211;G06F40/295;G06F40/30;G06N3/0464;G06N3/08;G06F18/24 |
代理公司: | 北京辰权知识产权代理有限公司 11619 | 代理人: | 刘广达 |
地址: | 518048 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 单词 识别 方法 装置 计算机 设备 存储 介质 | ||
1.一种单词识别方法,其特征在于,所述方法包括:
获取目标音频数据,所述目标音频数据包括目标对象的问答内容,所述目标音频数据还包括梯度标识,所述梯度标识用于标识出目标音频来自的平台、且各个平台均具有不同的梯度;
从所述目标音频数据中提取包括多个待识别单词的选取音频片段,并对多个待识别单词进行标签,得到对应的单词标签,并根据条件随机字段解码模型,对多个待识别单词的单词标签进行解码,得到多个待识别单词解码后的单词标签,所述选取音频片段对应一个选取句;
根据上下文识别模型,对所述选取句的上下文环境进行识别和解析,得到与所述上下文环境对应的上下文信息,所述上下文识别模型包括第一层和第二层,所述第一层为卷积神经网络层,所述第一层用于解析所述选取句的上下文信息,所述选取句为与所述选取音频片段对应的一个句子,所述第二层为双向长短期记忆网络层,所述第二层用于根据第一方向上单词之间的第一长度距离依赖属性,以及第二方向上单词之间的第二长度距离依赖属性进行建模,得到所述上下文识别模型,所述上下文信息存储于区块链中;
根据读取出的所述选取句的上下文信息和多个待识别单词解码后的单词标签,识别出所述选取句中包括的多个具有独立含义的单词。
2.根据权利要求1所述的方法,其特征在于,所述根据上下文识别模型,对所述选取句的上下文环境进行识别包括:
通过所述上下文识别模型的所述第一层对所述选取句的上下文环境进行识别和解析,得到与所述上下文环境对应的所述上下文信息。
3.根据权利要求2所述的方法,其特征在于,所述通过所述上下文识别模型的所述第一层对所述选取句的上下文环境进行识别和解析包括:
通过所述第一层的卷积神经网络,学习所述选取句中的每个字符的上下文表示,得到上下文字符序列;
将所述上下文字符序列发送至所述第一层的所述卷积神经网络中的最大池化层;
根据所述上下文字符序列和所述最大池化层,得到每个字符对应的字符嵌入词;
对所述选取句中每个字符对应的字符嵌入词进行解析,得到与所述上下文环境对应的所述上下文信息。
4.根据权利要求3所述的方法,其特征在于,在所述将所述上下文字符序列发送至所述第一层的所述卷积神经网络中的最大池化层之前,所述方法还包括:
获取所述上下文字符序列;
从所述上下文字符序列中选取任一一段字符序列并进行标记,得到选取字符的标记序列;
根据所述条件随机字段解码模型,对所述选取字符的所述标记序列的出现概率进行计算,得到所述选取字符的出现概率,所述条件随机字段解码模型为采用马尔科夫链作为隐含变量的概率转移模型;
在所述选取字符的出现概率大于或等于预设概率阈值的情况下,确定所述选取字符为候选字符。
5.根据权利要求1所述的方法,其特征在于,在所述根据上下文识别模型,对所述选取句的上下文环境进行识别和解析之前,所述方法还包括:
根据预设梯度模型,从用户数据中选取进行训练的样本数据,预设梯度模型用于确定所述样本数据的数据量和所述样本数据的数据类型,所述数据量和所述数据类型均与所述预设梯度模型中的当前梯度正相关,所述用户数据为分布于多个平台上的用户数据、且各个平台上的用户数据均配置有不同的梯度;
根据选取的所述样本数据进行建模,得到所述上下文识别模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010762981.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种抗静电无纺布及其制备方法
- 下一篇:气溶胶生成装置