[发明专利]基于表征学习的中文自动语音识别文本修复方法及系统在审
申请号: | 202211134542.9 | 申请日: | 2022-09-19 |
公开(公告)号: | CN115438154A | 公开(公告)日: | 2022-12-06 |
发明(设计)人: | 武星;张源 | 申请(专利权)人: | 上海大学 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/35;G06F40/126;G06F40/289;G06N3/04;G06N3/08;G10L15/26;G10L15/16;G10L15/06 |
代理公司: | 上海申汇专利代理有限公司 31001 | 代理人: | 翁若莹;徐颖 |
地址: | 200436*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 表征 学习 中文 自动 语音 识别 文本 修复 方法 系统 | ||
1.一种基于表征学习的中文自动语音识别文本修复方法,其特征在于,中文自动语音识别出的中文送入BERT中文分词器进行编码后输出词向量,词向量送入中文标点符号预测模型进行标点符号预测,首先词向量分别通过字编码嵌入、拼音嵌入和字形嵌入编码和解码后送入Transformer网络,Transformer网络对字编码嵌入、拼音嵌入和字形嵌入进行自注意力机制的学习,整合字编码嵌入层、拼音嵌入层和字形嵌入层的信息的同时将嵌入层的维度拉伸成分类模块输入的维度,分类模块输出每个字的之后最大概率的标点符号的类别;中文标点符号预测模型输出带有标点符号的句子送入到中文纠错模型中进行纠错,在中文纠错模型中输入句子先使用基于词表的分词器得到字符嵌入和位置编码嵌入,同时输入句子送入双向LSTM的网络编码器中得到字音嵌入和笔画嵌入,将字符嵌入、位置编码嵌入、字音嵌入和字形嵌入进入融合嵌入后,送入基于Transformer结构的中文纠错网络中,得到修复后的文本。
2.一种基于表征学习的中文自动语音识别文本修复系统,其特征在于,为中文标点符号预测模型和中文纠错模型封装成一个端到端的中文文本修复模型,输入的中文文本送中文标点符号预测模型,中文标点符号预测模型输出的带有标点符号的句子送中文纠错模型纠错,获得修复后的文本;
所述中文标点符号预测模型包括BERT中文分词器、RoBERTa预测模型、ChineseBERT预测模型、Transformer网络和分类模块;
所述BERT中文分词器:对输入的中文文本中的每一个中文词进行编码从而获得词向量;
所述RoBERTa预测模型:将词向量编码成通过预训练任务得到的字编码向量,即获得字编码嵌入;
所述ChineseBERT预测模型:提取词向量的字音特征和字形特征,得到拼音嵌入和字形嵌入;
所述Transformer网络:对字编码嵌入、拼音嵌入和字形嵌入进行自注意力机制的学习,整合字编码嵌入层、拼音嵌入层和字形嵌入层的信息的同时将嵌入层的维度拉伸成分类模块输入的维度;
所述分类模块:由两层线性层和两层Dropout层来进行叠加,预测每一个字符编码对于标点分类的概率,输出每个字的之后最大概率的标点符号的类别;
所述中文纠错模型采用PLOME模型。
3.根据权利要求2所述基于表征学习的中文自动语音识别文本修复系统,其特征在于,所述RoBERTa预测模型采用动态掩码替换原BERT模型中的静态掩码和取消BERT模型中的下文预测任务,采用的掩码策略包括0%掩码、15%掩码以及30%掩码。
4.根据权利要求2所述基于表征学习的中文自动语音识别文本修复系统,其特征在于,所述ChineseBERT预测模型中拼音嵌入:通过开源工具获取每个字的拼音,将每个字的拼音通过一层宽度为二的CNN网络进行卷积,然后通过最大池化层获得拼音嵌入;
字形嵌入:使用三种中文字体的字形图片,每一个字形图片的大小为24*24,每个字的三种中文字体组合成24*24*3的张量,然后使用全卷积神经网络对张量进行拉伸形成字形嵌入。
5.根据权利要求2所述基于表征学习的中文自动语音识别文本修复系统,其特征在于,所述Transformer网络注意力机制的核心公式如下式所示:
式中:Q是查询矩阵;K是注意力机制关注的信息;V是原始输入值通过线性变化之后的矩阵,用来保存输入特征,Q与K的转置KT进行点乘计算出对于Q在V上的注意力权重;dk是多头注意力机制算法中的head大小,利用进行尺度化的目的是避免Q与KT的点积太大,一旦点积过大时,经过Softmax函数进行反向传播的梯度计算,将结果平滑到0-1区间。
6.根据权利要求2所述基于表征学习的中文自动语音识别文本修复系统,其特征在于,所述中文纠错模型输入包括四个嵌入层:字符嵌入、位置嵌入、拼音嵌入和笔画嵌入,通过查找表和预训练分词器,获得字符嵌入和位置嵌入;采用BiLSTM编码器用来表示拼音嵌入和笔画嵌入,字符嵌入、位置嵌入、拼音嵌入和笔画嵌入输出通过融合嵌入融合后,送入12层的Transformer后得到输出。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海大学,未经上海大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211134542.9/1.html,转载请声明来源钻瓜专利网。