[发明专利]语音识别后处理方法和系统及相关设备在审

专利信息
申请号: 202011476615.3 申请日: 2020-12-15
公开(公告)号: CN112634878A 公开(公告)日: 2021-04-09
发明(设计)人: 黄石磊;刘轶;程刚 申请(专利权)人: 深港产学研基地(北京大学香港科技大学深圳研修院);北京大学深圳研究院
主分类号: G10L15/06 分类号: G10L15/06;G10L15/183;G10L15/19;G10L15/22
代理公司: 深圳市万商天勤知识产权事务所(普通合伙) 44279 代理人: 罗建平
地址: 518000 广东省深圳市南*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 语音 识别 处理 方法 系统 相关 设备
【权利要求书】:

1.一种语音识别后处理方法,其特征在于,包括:

从语音识别系统针对输入语音进行第一次解码产生的词图lattice中,提取前N个最好的识别结果N-bestlists;

使用训练好的带有词性的BERT双向语言模型对N-best lists进行重打分;

从N-bestlists中选择得分最高的结果作为最终的识别结果。

2.根据权利要求1所述的方法,其特征在于,还包括预先训练带有词性的BERT双向语言模型的训练步骤,该训练步骤具体包括:

对训练用的文本语料进行预处理;

通过分词工具进行分词和词性标注,获取文本语料中的词组和对应的词性,然后利用B、I、E、S四个标签与词性进行组合,对各词组的词性进行进一步分配;

将文本语料的文本信息和词性信息进行相同的掩膜处理;

对掩膜处理后的文本信息的词向量和对应词性信息的词向量进行平均加权求和,训练得到带有词性的BERT双向语言模型;

其中,在训练BERT双向语言模型过程中,禁用预测下一句NSP任务,仅保留通过掩膜方式训练语言模型的Mask LM任务。

3.根据权利要求1或2所述的方法,其特征在于,所述使用训练好的带有词性的BERT双向语言模型对N-bestlists进行重打分,包括:

对N-bestlists中的每个结果所组成的句子,通过分词工具求出句子中每个词的词性,然后利用B、I、E、S四个标签与词性进行组合来进一步划分出每个字的词性;

采用基于滑动窗口的输入样本方式和逐字掩膜的编码方式,对每个句子构造输入样本并进行编码处理,然后输入到BERT双向语言模型;

经由BERT双向语言模型计算得出每个句子的概率和得分,完成对N-best lists的重打分。

4.根据权利要求3所述的方法,其特征在于,所述的采用基于滑动窗口的输入样本方式和逐字掩膜的编码方式,对每个句子构造输入样本并进行编码处理,然后输入到BERT双向语言模型,包括:

设置长度为max_length=2M的滑动窗口,M为正整数;

如果句子的长度不超过max_length,则对整个句子采用逐字掩膜的方式构造输入样本,进行编码处理后,构造成一个batch,输入到BERT双向语言模型;

如果句子的长度超过max_length,则通过从句子的开头以步长M向后移动滑动窗口,依次提取每个滑动窗口内的句子内容,如果当前滑动窗口内的所有字都是首次被处理,则从第一个字开始采用逐字掩膜的方式构造输入样本,如果当前滑动窗口内的前M个字已在之前的滑动窗口内被处理,则从第M+1个字开始采用逐字掩膜的方式构造输入样本,最后对该句子的全部输入样本进行编码处理后构造成一个batch,输入到BERT双向语言模型。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深港产学研基地(北京大学香港科技大学深圳研修院);北京大学深圳研究院,未经深港产学研基地(北京大学香港科技大学深圳研修院);北京大学深圳研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202011476615.3/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top