[发明专利]语音信号处理方法、装置、电子设备及存储介质在审

申请号：	201910809985.5	申请日：	2019-08-29
公开（公告）号：	CN112530417A	公开（公告）日：	2021-03-19
发明（设计）人：	韩伟;王阳阳;李曙光	申请（专利权）人：	北京猎户星空科技有限公司
主分类号：	G10L15/197	分类号：	G10L15/197;G10L15/18
代理公司：	北京同达信恒知识产权代理有限公司 11291	代理人：	郭晓丽
地址：	100025 北京市朝***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	语音信号处理方法装置电子设备存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种语音信号处理方法，其特征在于，所述方法包括：

对智能设备实时采集到的音频流数据进行语音识别，得到临时识别结果；

对所述临时识别结果进行分词处理，得到若干分词片段；

获取第一分词序列之后的下一个分词片段为结束字符的预测概率，所述预测概率为根据所述词频数据确定的，所述词频数据包括基于语料库中的语料确定出的各分词序列在各语料中出现的次数，所述第一分词序列为所述临时识别结果中最后的N个分词片段组成的序列，N为正整数；

若所述预测概率大于概率阈值，对所述临时识别结果进行语义解析。

2.根据权利要求1所述的方法，其特征在于，所述获取第一分词序列之后的下一个分词片段为结束字符的预测概率，具体包括：

从所述词频数据中获取所述第一分词序列对应的次数M；从所述词频数据中获取第二分词序列对应的次数K，所述第二分词序列为在所述第一分词序列之后增加所述结束字符得到的序列；根据所述K和所述M，确定所述预测概率；

或者，

从预先配置的各N元分词序列之后的下一个分词片段为结束字符的概率数据中，将所述第一分词序列对应的概率数据确定为预测概率，所述N元分词序列是基于所述语料库中的语料进行分词处理得到的，所述概率数据是根据所述N元分词序列对应的词频数据和在所述N元分词序列之后增加所述结束字符得到的N+1元分词序列对应的词频数据确定的。

3.根据权利要求1或2所述的方法，其特征在于，通过如下方式获取所述词频数据：

对所述语料库中的各语料进行分词处理，得到各语料对应的分词片段；

将每个语料中连续的N个分词片段组成的序列确定为一个N元分词序列；

将每个语料中连续的N+1个分词片段组成的序列确定为一个N+1元分词序列；

统计每个所述N元分词序列和每个所述N+1元分词序列在所述语料库的各语料中出现的次数，得到所述词频数据。

4.根据权利要求3所述的方法，其特征在于，通过以下方式更新所述语料库中的语料：

若所述预测概率小于或等于所述概率阈值，且已检测到所述音频流数据中的语音起始点和语音结束点，在所述语音起始点和所述语音结束点之间的音频流数据对应的最终识别结果之后添加所述结束字符，将添加所述结束字符的最终识别结果作为新增的语料添加到所述语料库中；

或者，

获取人工干预后的具有完整语义的文本，在所述文本之后添加所述结束字符，将添加所述结束字符的文本作为新增的语料添加到所述语料库中。

5.根据权利要求4所述的方法，其特征在于，所述方法还包括：

若所述语料库中有新增的语料，对所述新增的语料进行分词处理，得到所述新增的语料对应的N元分词序列和N+1元分词序列；

更新所述新增的语料对应的N元分词序列和N+1元分词序列对应的词频数据。