[发明专利]基于表征学习的中文自动语音识别文本修复方法及系统在审
申请号: | 202211134542.9 | 申请日: | 2022-09-19 |
公开(公告)号: | CN115438154A | 公开(公告)日: | 2022-12-06 |
发明(设计)人: | 武星;张源 | 申请(专利权)人: | 上海大学 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/35;G06F40/126;G06F40/289;G06N3/04;G06N3/08;G10L15/26;G10L15/16;G10L15/06 |
代理公司: | 上海申汇专利代理有限公司 31001 | 代理人: | 翁若莹;徐颖 |
地址: | 200436*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 表征 学习 中文 自动 语音 识别 文本 修复 方法 系统 | ||
本发明涉及一种基于表征学习的中文自动语音识别文本修复方法及系统,基本BERT的中文标点符号预测模型,相比于现有的中文标点符号模型,本发明使用了更高效的RoBERTa预测模型,对原BERT预测模型进行微调,并且使用Transformer来整合特征嵌入,是目前完整且高效的中文标点符号预测任务的方法和系统;提出的文本纠错模型中,使用双向LSTM结构提取了字音和笔画特征的嵌入层,借助于双向LSTM的记忆能力更好地解决了长程依赖问题;提出的模型将中文标点符号和中文纠错模型两个任务进行结合,形成了一个端到端的中文ASR输出本文修复系统,从两个角度完全解决ASR输出文本的错误,提高语音文本的正确率。
技术领域
本发明涉及一种语音识别技术,特别涉及一种基于表征学习的中文自动语音识别文本修复方法及系统。
背景技术
ASR(Automatic Speech Recognition,自动语音识别,ASR)在工业系统中起到了越来越重要的作用,但是在音频转录时,不可避免的噪音会导致转录生成的文本与真实内容有所差异。因此,ASR转录之后的文本修复就是一个非常重要的步骤。在ASR文本修复的过程中,有两个问题值得被关注:第一转录过程中,噪音或者其他因素会影响语音的质量,导致转录出现错字漏字现象;第二转录后的文本不包含标点符号,大大降低了转录文本的可读性,增大了处理文本的难度。
不管应用在词级别或句级别,中文纠错都是一个非常重要的任务,该任务是为了解决文本中错字问题。中文纠错可以用到许多自然语言处理的任务中,例如光学字符识别和文章评分任务。中文纠错是一个非常具有挑战性的问题,为了更好的解决中文纠错的问题,必须具备像人一样的语言理解能力。常见的中文错误分为两种:第一种是形近字错误,即错误的字和正确的字是字形方面的差别,这种错误常发生在光学字符识别领域。另一种是音近字错误,即错误的字和正确的字是拼音方面的差别,该错误往往出现在语音识别ASR领域。
标点符号预测或标点符号修复指的是利用计算机对无标点文本进行标点修复预测,使预测之后的文本相比于之前的文本更加具有可读性,符合自身语义。目前针对标点符号预测的公开数据集为IWSLT数据集,该数据集是针对英文语音转写,中文标点符号预测或者中文标点符号修复比英文的更加困难。首先,中文和英文有天然的区别,英文每个词都有空格隔开,而且中文中每个字都有多种含义,即中文字的多义性。其次,中文标点相比于英文标点更加丰富且多变,这也增大了中文标点预测任务的难度,迄今在中文标点符号预测并没有好的进展。所以不管是在数据集方面或者语言模型方面,中文标点符号预测有很大的研究空间。
发明内容
针对中文自动语音识别后纠错难问题,提出了一种基于表征学习的中文自动语音识别文本修复方法及系统。
本发明的技术方案为:一种基于表征学习的中文自动语音识别文本修复方法,中文自动语音识别出的中文送入BERT中文分词器进行编码后输出词向量,词向量送入中文标点符号预测模型进行标点符号预测,首先词向量分别通过字编码嵌入、拼音嵌入和字形嵌入编码和解码后送入Transformer网络,Transformer网络对字编码嵌入、拼音嵌入和字形嵌入进行自注意力机制的学习,整合字编码嵌入层、拼音嵌入层和字形嵌入层的信息的同时将嵌入层的维度拉伸成分类模块输入的维度,分类模块输出每个字的之后最大概率的标点符号的类别;中文标点符号预测模型输出带有标点符号的句子送入到中文纠错模型中进行纠错,在中文纠错模型中输入句子先使用基于词表的分词器得到字符嵌入和位置编码嵌入,同时输入句子送入双向LSTM的网络编码器中得到字音嵌入和笔画嵌入,将字符嵌入、位置编码嵌入、字音嵌入和字形嵌入进入融合嵌入后,送入基于Transformer结构的中文纠错网络中,得到修复后的文本。
一种基于表征学习的中文自动语音识别文本修复系统,为中文标点符号预测模型和中文纠错模型封装成一个端到端的中文文本修复模型,输入的中文文本送中文标点符号预测模型,中文标点符号预测模型输出的带有标点符号的句子送中文纠错模型纠错,获得修复后的文本;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海大学,未经上海大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211134542.9/2.html,转载请声明来源钻瓜专利网。