[发明专利]语音识别后处理方法和系统及相关设备在审
申请号: | 202011476615.3 | 申请日: | 2020-12-15 |
公开(公告)号: | CN112634878A | 公开(公告)日: | 2021-04-09 |
发明(设计)人: | 黄石磊;刘轶;程刚 | 申请(专利权)人: | 深港产学研基地(北京大学香港科技大学深圳研修院);北京大学深圳研究院 |
主分类号: | G10L15/06 | 分类号: | G10L15/06;G10L15/183;G10L15/19;G10L15/22 |
代理公司: | 深圳市万商天勤知识产权事务所(普通合伙) 44279 | 代理人: | 罗建平 |
地址: | 518000 广东省深圳市南*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 识别 处理 方法 系统 相关 设备 | ||
1.一种语音识别后处理方法,其特征在于,包括:
从语音识别系统针对输入语音进行第一次解码产生的词图lattice中,提取前N个最好的识别结果N-bestlists;
使用训练好的带有词性的BERT双向语言模型对N-best lists进行重打分;
从N-bestlists中选择得分最高的结果作为最终的识别结果。
2.根据权利要求1所述的方法,其特征在于,还包括预先训练带有词性的BERT双向语言模型的训练步骤,该训练步骤具体包括:
对训练用的文本语料进行预处理;
通过分词工具进行分词和词性标注,获取文本语料中的词组和对应的词性,然后利用B、I、E、S四个标签与词性进行组合,对各词组的词性进行进一步分配;
将文本语料的文本信息和词性信息进行相同的掩膜处理;
对掩膜处理后的文本信息的词向量和对应词性信息的词向量进行平均加权求和,训练得到带有词性的BERT双向语言模型;
其中,在训练BERT双向语言模型过程中,禁用预测下一句NSP任务,仅保留通过掩膜方式训练语言模型的Mask LM任务。
3.根据权利要求1或2所述的方法,其特征在于,所述使用训练好的带有词性的BERT双向语言模型对N-bestlists进行重打分,包括:
对N-bestlists中的每个结果所组成的句子,通过分词工具求出句子中每个词的词性,然后利用B、I、E、S四个标签与词性进行组合来进一步划分出每个字的词性;
采用基于滑动窗口的输入样本方式和逐字掩膜的编码方式,对每个句子构造输入样本并进行编码处理,然后输入到BERT双向语言模型;
经由BERT双向语言模型计算得出每个句子的概率和得分,完成对N-best lists的重打分。
4.根据权利要求3所述的方法,其特征在于,所述的采用基于滑动窗口的输入样本方式和逐字掩膜的编码方式,对每个句子构造输入样本并进行编码处理,然后输入到BERT双向语言模型,包括:
设置长度为max_length=2M的滑动窗口,M为正整数;
如果句子的长度不超过max_length,则对整个句子采用逐字掩膜的方式构造输入样本,进行编码处理后,构造成一个batch,输入到BERT双向语言模型;
如果句子的长度超过max_length,则通过从句子的开头以步长M向后移动滑动窗口,依次提取每个滑动窗口内的句子内容,如果当前滑动窗口内的所有字都是首次被处理,则从第一个字开始采用逐字掩膜的方式构造输入样本,如果当前滑动窗口内的前M个字已在之前的滑动窗口内被处理,则从第M+1个字开始采用逐字掩膜的方式构造输入样本,最后对该句子的全部输入样本进行编码处理后构造成一个batch,输入到BERT双向语言模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深港产学研基地(北京大学香港科技大学深圳研修院);北京大学深圳研究院,未经深港产学研基地(北京大学香港科技大学深圳研修院);北京大学深圳研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011476615.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种通讯电路和空调器
- 下一篇:动物双歧杆菌在提高肿瘤免疫治疗应答中的作用