[发明专利]语音识别方法、系统、介质、计算机设备、终端及应用有效

专利信息
申请号: 202011533459.X 申请日: 2020-12-23
公开(公告)号: CN112712804B 公开(公告)日: 2022-08-26
发明(设计)人: 胡鑫;涂志莹;李春山;李政佐;赵云龙;初佃辉 申请(专利权)人: 哈尔滨工业大学(威海)
主分类号: G10L15/26 分类号: G10L15/26;G10L15/14;G10L15/16;G10L15/06;G10L15/18;G10L15/30;H04L67/02;H04L67/133
代理公司: 北京汇捷知识产权代理事务所(普通合伙) 11531 代理人: 盛君梅
地址: 264209 山*** 国省代码: 山东;37
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 语音 识别 方法 系统 介质 计算机 设备 终端 应用
【权利要求书】:

1.一种语音识别方法,其特征在于,所述语音识别方法通过基于医疗领域文本数据上进行语言模型建模对医疗领域语音识别;对识别文本进行后处理得到阅读的形式,包括标点预测与文本逆标准化两种后处理任务;标点预测识别文本添加表征句子边界信息的标点符号,文本逆标准化将识别文本中朗读形式的符号发音文本转写为阅读形式的符号形式;

所述语音识别方法的识别后处理模块包含为语音识别产生的没有标点的口语文本添加标点的标点预测与将口语文本发音汉字形式的文本转写为适宜人阅读的数字、符号,达到适宜人阅读的形式的文本逆标准化;

所述标点预测采用的基于文本特征的方法,未使用声学相关特征,在纯文本数据上进行模型的训练;标点预测作为序列标注任务,即为给定文本序列中的每一个token预测其标签y,y即为该token后出现的标点,若该token后无标点则预测为O;主要处理的标点为句号、顿号、冒号、逗号四种医疗领域中出现的形式;

标点预测采用的模型结构为BERT-BiLSTM-CRF,BERT模型是两阶段的语言模型,首先在大规模语料上进行预训练,然后在BERT模型之后接入特定任务的模型参数,对下游任务进行微调fine-tuning;BERT引入了Masked LM的预训练任务,在训练中将一定比例的token进行遮掩mask,再将遮掩的token对应的模型最终输出的隐向量输出到softmax层中进行预测重建;通过Masked LM任务,能够促使模型学习深度双向信息;BERT还引入了Next SentencePrediction任务,以期对句子级别的信息进行学习,Next Sentence Prediction任务的预训练构建了50%正常连续的句子对与50%随机选取的句子对,进行二分类的任务学习;NSP任务以期提高问答QA与自然语言推理NLI注重句子关系的任务的性能;

在所用数据为医院病历文本数据,即先前进行语言模型训练使用的病历文本数据;首先,对数据进行清洗处理,去除特殊符号、标记无关内容,将数据形式为读形式文本,并去除或替换其他标点符号,只保留“。句号”、“,逗号”、“:冒号”、“、顿号”四种标点符号;

在输入形式上,为防止模型对输入序列末尾添加句号的几率过高,数据输入形式为在包含完整句子的情况下,对200个token进行截断,训练语料共有语料11600条;测试集含有714条语料;

BiLSTM的层数为1层,LSTM隐层单元为128,BERT使用的google公开的中文预训练模型,层数为12层,隐层单元为768,多头注意力取值为8;实验的评价指标为分类任务的精确率precision,召回率recall,与F1值;指标为分类任务的常用指标,计算方法如下:

定义TP为真实值与预测值均为正类;FP为真实值为负类,预测值为正类;FN为真实值为正类,预测值为负类;精确率的计算公式为表示预测为正类的样本中正确的比例;召回率的计算公式为表示真实值为正类的样本中正确预测为正类的比例;F1值为精确率与召回率的调和平均值,公式为

各标点的指标为将该标点本身视为正类,其他视为负类;Overall为将所有标点视为正类,非标点(即O标签)视为负类;

将文本逆标准化任务看作机器翻译任务,以序列到序列Sequence2Sequence的生成式方法进行,将带有“读形式”非单词符号的识别文本序列转写为“写形式”的文本序列;利用神经网络模型,更好地结合上下文语义信息,以数据驱动的形式进行文本逆标准化的任务;

以机器翻译的任务进行,采用的模型结构带注意力机制的编码器-解码器码Encoder-Decoder框架:编码器与解码器的基本结构为LSTM,编码器为双向的LSTM,模型加入了注意力机制ttention Mechanism;在解码阶段,使用pointer generator进行生成,提高与原句重合的token的生成概率,编码器与解码共享词表与嵌入层;

引入了attention机制,在每一个时间步产生一个语义向量ci来加强对编码端信息的利用;语义向量ci取决于编码器将输入编码得到的隐状态向量序列hj认为其包含表示整个输入序列中重点放在第i个字周围的信息,αij为第i个时间步时对hj的attention权重,通过加权求和,得到该时间步的语义向量ci

attention权重αij的计算如公式:

其中eij=a(si,hj)是一个对齐模型,基于编码向量hj与解码器的状态si,对输入序列中位置j周围的信息与输出序列中位置i周围的信息的对其程度进行评分;使用的MLP的attention计算方式,语义向量ci能够在i时刻解码时,更好地利用与该时刻解码相关的编码向量,Attention机制已应用在多种NLP任务当中;

引入copy机制,使用pointer-generator进行解码,对于pointer-generator的解码器,在每个解码器时间步生成概率pgen∈[0,1],通过pgen权衡从输出词汇表生成单词的概率与从源文本复制单词的概率;最终的概率分布由输出词汇表概率分布和注意力分布进行加权和求和得到;其中注意力分布复用了编码器生成的注意力分布,在最终的概率分布P(w)上,预测解码的结果:

Pvocab(w)为输出词汇表概率分布,是在原句上的注意力分布,如果w是未登录词(OOV),则Pvocab(w)为零,如果w没有出现在源文档中,则在为零;通过pointer-generator形式的解码策略。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工业大学(威海),未经哈尔滨工业大学(威海)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202011533459.X/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top