[发明专利]语音断句方法、装置、计算机设备及存储介质有效
申请号: | 202110725596.1 | 申请日: | 2021-06-29 |
公开(公告)号: | CN113436617B | 公开(公告)日: | 2023-08-18 |
发明(设计)人: | 曹磊;李俊蓉 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G10L15/04 | 分类号: | G10L15/04;G10L15/05;G10L15/26;G10L25/87;G06F18/22;G06F40/284 |
代理公司: | 深圳市赛恩倍吉知识产权代理有限公司 44334 | 代理人: | 汪飞亚 |
地址: | 518000 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 断句 方法 装置 计算机 设备 存储 介质 | ||
本发明涉及人工智能技术领域,提供一种语音断句方法及相关设备,使用静默时间计算模型根据用户语音的语速语调及用户参数计算静默时间,以所述静默时间为断点对用户语音进行断句处理,实现了千人千面的打断判断;在得到多个第一断句语音后,使用词汇模型识别每个第一断句语音中的末端字词是否为目标字词,从而在识别到有目标末端字词为目标字词时,对包含目标末端字词的目标第一断句语音进行断句处理得到多个第二断句语音,将包含目标末端字词的第二断句语音与目标第一断句语音相邻的第一断句语音进行合并处理得到第三断句语音,最后根据第三断句语音对第一断句语音进行更新,得到目标断句语音,实现了对用户语音的正确断句。
技术领域
本发明涉及人工智能技术领域,具体涉及一种语音断句方法、装置、计算机设备及存储介质。
背景技术
目前市面上的外呼对话机器人,在进行语音识别的时候,通常以停顿为判断依据进行断句,但在实际识别时容易出现断句不正确的情况,主要有以下的情况:
1)用户在回复机器人时,会出现边说边思考的情况,在表达一句短句后其实还没说完,但由于思考时间、反应时间出现迟疑时,容易被进行断句,导致只识别了前半句的情况;
2)用户在回复机器人时,如有环境比较嘈杂或者有背景声时,容易出现用户已经说完,但依然有声音,导致无法判断是否已断句,从而导致无法识别出文字,引起机器人无法及时回应的情况;
3)用户在回复机器人时,由于本身说话的语音语调各有差异,语速较慢时,容易引起断句不正确,导致只识别前半句的情况。
发明内容
鉴于以上内容,有必要提出一种语音断句方法、装置、计算机设备及存储介质,能够提升语音断句的准确性。
本发明的第一方面提供一种语音断句方法,所述方法包括:
获取用户参数及用户语音,根据所述用户语音获取语速语调,调用静默时间计算模型基于所述语速语调和所述用户参数获取静默时间;
根据所述静默时间对所述用户语音进行断句处理,得到多个第一断句语音;
提取每个第一断句语音中的末端字词,使用预先训练的词汇模型识别每个末端字词是否为目标字词;
当识别到所述末端字词为目标字词时,对包含所述目标字词的所述第一断句语音进行断句处理,得到多个第二断句语音;
获取包含所述目标字词的第一断句语音的相邻断句语音为待处理语音并将包含所述目标字词的所述第二断句语音与所述待处理语音进行合并处理,得到第三断句语音;
将不包含所述目标字词的所述第一断句语音、不包含所述目标字词的所述第二断句语音及所述第三断句语音按照顺序排列,得到所述目标断句语音。
根据本发明的一个可选的实施方式,在得到所述目标断句语音之后,所述方法还包括:
设置约束条件;
对所述目标断句语音进行包括预加重、加窗分帧在内的预处理;
对预处理后的目标断句语音进行快速傅里叶变换,得到多个子带;
使用所述约束条件对每个子带进行线性约束,得到目标子带;
计算每个目标子带的能量概率分布密度及根据所述能量概率分布密度计算对应的子带的谱熵;
对每个子带的谱熵进行平滑处理得到门限阈值;
使用双门限端点检测法基于所述门限阈值检测出音节起始点和终止点;
根据所述音节起始点和所述终止点对所述目标断句语音进行语音分割。
根据本发明的一个可选的实施方式,所述使用所述约束条件对每个子带进行线性约束,得到目标子带包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110725596.1/2.html,转载请声明来源钻瓜专利网。