[发明专利]一种基于时延神经网络的电力客服语音识别方法及装置在审

专利信息
申请号: 202211184879.0 申请日: 2022-09-27
公开(公告)号: CN115691500A 公开(公告)日: 2023-02-03
发明(设计)人: 杨霞;苟亮;郑略省;马倩;王涛;郭江涛;迪力尼亚·迪力夏提;朱帕尔·努尔兰;刘嵩;潘建宏;李坤源;马为真;王平;薛高倩;刘璐璐;马占军;雪拉提·司马义 申请(专利权)人: 国网新疆电力有限公司信息通信公司;福建亿榕信息技术有限公司
主分类号: G10L15/26 分类号: G10L15/26;G10L15/16;G10L25/24;G10L21/0208;H04M3/527
代理公司: 广州京诺知识产权代理有限公司 44407 代理人: 轩青涛
地址: 830002 新疆维吾尔自治区乌*** 国省代码: 新疆;65
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 神经网络 电力 客服 语音 识别 方法 装置
【权利要求书】:

1.一种基于时延神经网络的电力客服语音识别方法,其特征在于:包括以下步骤:

步骤S1:语音预处理:先由客户发起电话连线并接入客户语音,然后利用Kaldi工具对客户语音进行预处理;

步骤S2:音素提取:在语音预处理基础上,基于时延神经网络TDNN的声学模型,获得多段语音间的影响因子和关联特征,从而识别出多段语音的音素;

步骤S3: 语音转文本:利用声学模型提取的音素组合,结合电网发音字典和Tri-Gram语言模型,将声学模型识别的音素转化成最优的文本序列,进行音文转换;

步骤S4:回复客服咨询:依据语言模型获得语音的文本信息,利用TF-IDF算法计算同电网客服问答库中各咨询语句的相似度距离,获得最相似咨询语句对应的答案,并及时回复客户的咨询。

2.根据权利要求1所述一种基于时延神经网络的电力客服语音识别方法,其特征在于:所述步骤S1中的预处理具体包括:对语音信号的预加重、分帧、加窗以及端点检测进行预处理操作,消除语音采集设备的噪声、信号失真、高频因素对语音信号的影响,并利用Kaldi工具对语音进行快速傅立叶变换、Mel滤波器操作,提取FBank特征,作为声学模型的输入数据,输入基于时延神经网络TDNN的声学模型。

3.根据权利要求1所述一种基于时延神经网络的电力客服语音识别方法,其特征在于:所述步骤S2中,基于时延神经网络TDNN的声学模型接收预处理后的数据作为输入数据,声学模型的深层网络获得广泛的时间域上的特征信息,接收当前语音特征和前后若干语音段的语音特征,对多段语音表达的关联性进行建模,引入用户意图的连贯性表达特征,为后续的语言模型提供音素组合。

4.根据权利要求1所述一种基于时延神经网络的电力客服语音识别方法,其特征在于:所述步骤S3中,假设句子S由词序列w1,w2,...wn组成,则句子S的概率通过所述Tri-Gram语言模型获得;Tri-Gram语言模型具体为:

P(wn|wn-1 wn-2)=C(wn-2wn-1wn)/C(wn-2wn-1)

其中,C(Wn)为词wn出现的频数。

5.根据权利要求1所述一种基于时延神经网络的电力客服语音识别方法,其特征在于:所述步骤S5还包括,将答案反馈给客户之后,判断客户是否满意,若客户不满意,建议客户再次表述或者转人工服为客户进行服务。

6.一种基于时延神经网络的电力客服语音识别装置,其特征在于:包括:

语音预处理模块,用于先由客户发起电话连线并接入客户语音,然后利用Kaldi工具对客户语音进行预处理;

音素提取模块,用于在语音预处理基础上,基于时延神经网络TDNN的声学模型,获得多段语音间的影响因子和关联特征,从而识别出多段语音的音素;

语音转文本模块,用于利用声学模型提取的音素组合,结合电网发音字典和Tri-Gram语言模型,将声学模型识别的音素转化成最优的文本序列,进行音文转换;

回复客服咨询模块,用于依据语言模型获得语音的文本信息,利用TF-IDF算法计算同电网客服问答库中各咨询语句的相似度距离,获得最相似咨询语句对应的答案,并及时回复客户的咨询。

7.根据权利要求6所述一种基于时延神经网络的电力客服语音识别装置,其特征在于:所述语音预处理模块中的预处理具体包括:对语音信号的预加重、分帧、加窗以及端点检测进行预处理操作,消除语音采集设备的噪声、信号失真、高频因素对语音信号的影响,并利用Kaldi工具对语音进行快速傅立叶变换、Mel滤波器操作,提取FBank特征,作为声学模型的输入数据,输入基于时延神经网络TDNN的声学模型。

8.根据权利要求6所述一种基于时延神经网络的电力客服语音识别装置,其特征在于:所述音素提取模块中,基于时延神经网络TDNN的声学模型接收预处理后的数据作为输入数据,声学模型的深层网络获得广泛的时间域上的特征信息,接收当前语音特征和前后若干语音段的语音特征,对多段语音表达的关联性进行建模,引入用户意图的连贯性表达特征,为后续的语言模型提供音素组合。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国网新疆电力有限公司信息通信公司;福建亿榕信息技术有限公司,未经国网新疆电力有限公司信息通信公司;福建亿榕信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202211184879.0/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top