[发明专利]一种利用话术语句提升语音识别准确率的识别方法在审
申请号: | 202010467020.5 | 申请日: | 2020-05-28 |
公开(公告)号: | CN111696531A | 公开(公告)日: | 2020-09-22 |
发明(设计)人: | 高洋洋 | 申请(专利权)人: | 升智信息科技(南京)有限公司 |
主分类号: | G10L15/06 | 分类号: | G10L15/06;G10L15/183 |
代理公司: | 南京经纬专利商标代理有限公司 32200 | 代理人: | 朱桢荣 |
地址: | 210012 江苏省南京*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 利用 术语 提升 语音 识别 准确率 方法 | ||
1.一种利用话术语句提升语音识别准确率的识别方法,其特征在于,包括以下步骤:
步骤1、使用通用性文本训练第一语言模型;训练第一语言模型具体如下:
设i为正在统计的序列的长度,i为大于等于1的整数;
当i等于1时,首先统计词语序列的第1个词语w1出现的次数C(w1),然后统计w1按顺序出现之后连接任一词语w的次数之和∑wC(w1,w);
当i大于1时,首先统计通用型文本中词语序列w1、w2、…、wi按顺序出现的次数C(w1,w2,...,wi),然后统计文本中词语序列w1、w2、…、wi-1按顺序出现之后连接任一词语w的次数之和∑wC(w1,w2,...,wi-1,w);ws为词语序列的第s个词语,s为大于0小于(i+1)的整数;
对于由词语序列w1,w2,...,wn组成的句子,n为该句子中词语的个数,其序列概率Pgeneral通过下面的公式计算得到:
其中,P(wi|w1,w2,...,wi-1)为第i个词出现的条件概率,P(w1)为第1个词出现的条件概率,P(w2|w1)为第2个词出现的条件概率;
C(w1,w2,...,wi)为文本中词语序列w1、w2、…、wi按顺序出现的次数,∑wC(w1,w2,...,wi-1,w)为文本中词语序列w1、w2、…、wi-1按顺序出现之后连接任一词语w的次数之和;
步骤2、定义对话机器人的话术,采用话术语句训练语言模型得到第二语言模型;
第二语言模型是话术语句的序列概率,具体为:
对于由词语序列w1,w2,...,wn组成的话术语句,其序列概率Pdialogue通过下面的公式计算得到:
其中,P(wi|w1,w2,...,wi-1)为第i个词出现的条件概率,P(w1)为第1个词出现的条件概率,P(w2|w1)为第2个词出现的条件概率;
步骤3、将第一语言模型和第二语言模型融合生成最终的语言模型;
最终的语言模型为:
由词语序列w1,w2,...,wn组成的句子,其序列概率Pfinal(w1w2...wn)通过下面的公式计算得到;
Pfinal(w1w2...wn)=λ1Pgeneral+λ2Pdialogue
其中,λ1和λ2为插值系数,用于调节第一语言模型和第二语言模型在Pfinal(w1w2...wn)中的权重;
步骤4、使用所述最终的语音模型生成语音识别系统,通过该语音识别系统来提升语音识别准确率。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于升智信息科技(南京)有限公司,未经升智信息科技(南京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010467020.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:业务类型数据的处理方法及系统
- 下一篇:密钥轮换方法、装置、电子设备及介质