[发明专利]一种基于时延神经网络的电力客服语音识别方法及装置在审
申请号: | 202211184879.0 | 申请日: | 2022-09-27 |
公开(公告)号: | CN115691500A | 公开(公告)日: | 2023-02-03 |
发明(设计)人: | 杨霞;苟亮;郑略省;马倩;王涛;郭江涛;迪力尼亚·迪力夏提;朱帕尔·努尔兰;刘嵩;潘建宏;李坤源;马为真;王平;薛高倩;刘璐璐;马占军;雪拉提·司马义 | 申请(专利权)人: | 国网新疆电力有限公司信息通信公司;福建亿榕信息技术有限公司 |
主分类号: | G10L15/26 | 分类号: | G10L15/26;G10L15/16;G10L25/24;G10L21/0208;H04M3/527 |
代理公司: | 广州京诺知识产权代理有限公司 44407 | 代理人: | 轩青涛 |
地址: | 830002 新疆维吾尔自治区乌*** | 国省代码: | 新疆;65 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 神经网络 电力 客服 语音 识别 方法 装置 | ||
1.一种基于时延神经网络的电力客服语音识别方法,其特征在于:包括以下步骤:
步骤S1:语音预处理:先由客户发起电话连线并接入客户语音,然后利用Kaldi工具对客户语音进行预处理;
步骤S2:音素提取:在语音预处理基础上,基于时延神经网络TDNN的声学模型,获得多段语音间的影响因子和关联特征,从而识别出多段语音的音素;
步骤S3: 语音转文本:利用声学模型提取的音素组合,结合电网发音字典和Tri-Gram语言模型,将声学模型识别的音素转化成最优的文本序列,进行音文转换;
步骤S4:回复客服咨询:依据语言模型获得语音的文本信息,利用TF-IDF算法计算同电网客服问答库中各咨询语句的相似度距离,获得最相似咨询语句对应的答案,并及时回复客户的咨询。
2.根据权利要求1所述一种基于时延神经网络的电力客服语音识别方法,其特征在于:所述步骤S1中的预处理具体包括:对语音信号的预加重、分帧、加窗以及端点检测进行预处理操作,消除语音采集设备的噪声、信号失真、高频因素对语音信号的影响,并利用Kaldi工具对语音进行快速傅立叶变换、Mel滤波器操作,提取FBank特征,作为声学模型的输入数据,输入基于时延神经网络TDNN的声学模型。
3.根据权利要求1所述一种基于时延神经网络的电力客服语音识别方法,其特征在于:所述步骤S2中,基于时延神经网络TDNN的声学模型接收预处理后的数据作为输入数据,声学模型的深层网络获得广泛的时间域上的特征信息,接收当前语音特征和前后若干语音段的语音特征,对多段语音表达的关联性进行建模,引入用户意图的连贯性表达特征,为后续的语言模型提供音素组合。
4.根据权利要求1所述一种基于时延神经网络的电力客服语音识别方法,其特征在于:所述步骤S3中,假设句子S由词序列w1,w2,...wn组成,则句子S的概率通过所述Tri-Gram语言模型获得;Tri-Gram语言模型具体为:
P(wn|wn-1 wn-2)=C(wn-2wn-1wn)/C(wn-2wn-1)
其中,C(Wn)为词wn出现的频数。
5.根据权利要求1所述一种基于时延神经网络的电力客服语音识别方法,其特征在于:所述步骤S5还包括,将答案反馈给客户之后,判断客户是否满意,若客户不满意,建议客户再次表述或者转人工服为客户进行服务。
6.一种基于时延神经网络的电力客服语音识别装置,其特征在于:包括:
语音预处理模块,用于先由客户发起电话连线并接入客户语音,然后利用Kaldi工具对客户语音进行预处理;
音素提取模块,用于在语音预处理基础上,基于时延神经网络TDNN的声学模型,获得多段语音间的影响因子和关联特征,从而识别出多段语音的音素;
语音转文本模块,用于利用声学模型提取的音素组合,结合电网发音字典和Tri-Gram语言模型,将声学模型识别的音素转化成最优的文本序列,进行音文转换;
回复客服咨询模块,用于依据语言模型获得语音的文本信息,利用TF-IDF算法计算同电网客服问答库中各咨询语句的相似度距离,获得最相似咨询语句对应的答案,并及时回复客户的咨询。
7.根据权利要求6所述一种基于时延神经网络的电力客服语音识别装置,其特征在于:所述语音预处理模块中的预处理具体包括:对语音信号的预加重、分帧、加窗以及端点检测进行预处理操作,消除语音采集设备的噪声、信号失真、高频因素对语音信号的影响,并利用Kaldi工具对语音进行快速傅立叶变换、Mel滤波器操作,提取FBank特征,作为声学模型的输入数据,输入基于时延神经网络TDNN的声学模型。
8.根据权利要求6所述一种基于时延神经网络的电力客服语音识别装置,其特征在于:所述音素提取模块中,基于时延神经网络TDNN的声学模型接收预处理后的数据作为输入数据,声学模型的深层网络获得广泛的时间域上的特征信息,接收当前语音特征和前后若干语音段的语音特征,对多段语音表达的关联性进行建模,引入用户意图的连贯性表达特征,为后续的语言模型提供音素组合。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国网新疆电力有限公司信息通信公司;福建亿榕信息技术有限公司,未经国网新疆电力有限公司信息通信公司;福建亿榕信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211184879.0/1.html,转载请声明来源钻瓜专利网。