[发明专利]命名实体识别方法、命名实体识别装置、设备及介质有效
申请号: | 201811005796.4 | 申请日: | 2018-08-30 |
公开(公告)号: | CN109741732B | 公开(公告)日: | 2022-06-21 |
发明(设计)人: | 胡风硕 | 申请(专利权)人: | 京东方科技集团股份有限公司 |
主分类号: | G10L15/02 | 分类号: | G10L15/02;G10L15/14;G10L15/16;G10L15/26 |
代理公司: | 北京市柳沈律师事务所 11105 | 代理人: | 王娟 |
地址: | 100015 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 命名 实体 识别 方法 装置 设备 介质 | ||
1.一种命名实体识别方法,包括:
采集语音信号;
提取语音信号中的语音特征向量;
基于语音信号进行语音识别后的文字结果,提取所述文字结果中的文字特征向量;
对所述语音信号中的每个字,确定与该字相对应的语音特征向量及文字特征向量,并将与该字相对应的语音特征向量及文字特征向量相拼接,得到所述语音信号中每个字的复合特征向量;
将语音信号中每个字的所述复合特征向量通过深度学习模型进行处理,得到命名实体的识别结果;
其中,基于语音信号进行语音识别后的文字结果,提取所述文字结果中的文字特征向量包括:提取字特征向量和提取分词嵌入特征向量;且其中,提取所述文字结果中的分词嵌入特征向量包括:根据预设词库中的词组对照表,划分所述文字结果中的词组和单字;根据预设变换规则,将所述词组中的每个字和所述单字分别转换为与对应的分词嵌入特征向量。
2.如权利要求1所述的命名实体识别方法,其中提取语音信号中的语音特征向量包括提取语音句特征向量和提取语音字特征向量。
3.如权利要求2所述的命名实体识别方法,其中提取语音信号中的语音句特征向量包括:
根据预设语音句库中的语音参数对照表,将所述语音信号中语音的句特征转换为与之对应的语音句特征向量。
4.如权利要求2所述的命名实体识别方法,其中提取语音信号中的语音字特征向量包括:
通过对语音信号进行语音分析,得到语音信号中的语音字特征向量。
5.如权利要求4所述的命名实体识别方法,其中对语音信号进行语音分析包括:
对于语音信号进行时间和频域上的离散化采样,得到数字语音信号;
对于数字语音信号中的每个字在时域上和频域上分别进行处理,得到其时域特征向量及频域特征向量;
对于语音信号中的每个字,将其时域特征向量和频域特征向量进行拼接,得到对应于每个字的语音字特征向量。
6.如权利要求1所述的命名实体识别方法,其中,提取所述文字结果中的字特征向量包括:
根据预设字库中的文字及向量值对照表,将所述文字转换为与之对应的字特征向量。
7.如权利要求1所述的命名实体识别方法,其中,对所述语音信号中的每个字,确定与该字相对应的语音特征向量及文字特征向量,并将与该字相对应的语音特征向量及文字特征向量相拼接,得到所述语音信号中每个字的复合特征向量包括:
对于所提取的语音特征向量、文字特征向量分别进行归一化处理;
将归一化处理后得到的针对语音信号中每个字的稠密文字特征向量和稠密语音特征向量进行向量拼接,得到针对语音信号中每个字的复合特征向量。
8.如权利要求1所述的命名实体识别方法,其中,对所述语音信号中的每个字,确定与该字相对应的语音特征向量及文字特征向量,并将与该字相对应的语音特征向量及文字特征向量相拼接,得到所述语音信号中每个字的复合特征向量包括:
将得到的针对语音信号中每个字的文字特征向量和语音特征向量进行向量拼接,得到针对语音信号中每个字的复合特征向量;
对于所得到的复合特征向量中的语音特征向量、文字特征向量分别进行归一化处理。
9.如权利要求7或8中所述的命名实体识别方法,其中,进行归一化处理包括:
对所述语音特征向量和所述文字特征向量分别进行线性函数归一化。
10.如权利要求7或8中所述的命名实体识别方法,其中,进行归一化处理包括:
对所述语音特征向量和所述文字特征向量分别进行0均值标准化。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于京东方科技集团股份有限公司,未经京东方科技集团股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811005796.4/1.html,转载请声明来源钻瓜专利网。