[发明专利]一种语音识别结果处理方法及相关装置在审
申请号: | 201910104210.8 | 申请日: | 2019-02-01 |
公开(公告)号: | CN109829163A | 公开(公告)日: | 2019-05-31 |
发明(设计)人: | 张琪;胡新辉;徐欣康 | 申请(专利权)人: | 浙江核新同花顺网络信息股份有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G10L15/26 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 罗满 |
地址: | 310000 浙江省*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 标点 语音识别结果 标注 序列标注 语义标注 计算机可读存储介质 计算机装置 处理系统 相关装置 学习训练 训练数据 语义特征 实时性 申请 | ||
本申请公开了一种语音识别结果处理方法,包括:对语音识别结果进行语义特征标注,得到语义标注结果;采用序列标注模型对所述语义标注结果进行标识,得到已标注标点数据;其中,所述序列标注模型是根据已标注标点的训练数据进行深度学习训练得到的;对所述已标注标点数据进行整理,得到最终标点添加结果。通过序列标注模型对语音识别结果进行标点添加,提高了标点添加的效率,具有良好的实时性。本申请还公开了一种语音识别结果处理系统、计算机装置以及计算机可读存储介质,具有以上有益效果。
技术领域
本申请涉及自然语言处理技术领域,特别涉及一种语音识别结果处理方法、语音识别结果处理系统、计算机装置以及计算机可读存储介质。
背景技术
随着信息技术的发展,语音识别技术中出现了更多的分支技术。例如,当对一段语音进行识别后,得到文字的语音识别结果,然后再对该语音识别结果添加合适的标点,以便该语音识别结果更利于阅读,提高用户体验。
现有技术中提供一种标点添加方法,先对语音识别结果进行分词,对分词的结果构建对应的语音模型,根据语音模型对全部语音文件特征单元和用静音检测分块后的特征单元分别计算权重,再进行加权处理,为语音文件添加标点。但是其计算过程繁琐,处理速度低,不具有良好的实时性,在实际使用的过程中无法给用户带来良好的体验。
因此,如何提高标点添加方法的效率是本领域技术人员关注的重点问题。
发明内容
本申请的目的是提供一种语音识别结果处理方法、语音识别结果处理系统、计算机装置以及计算机可读存储介质,通过序列标注模型对语音识别结果进行标点添加,提高了标点添加的效率,具有良好的实时性。
为解决上述技术问题,本申请提供一种语音识别结果处理方法,包括:
对语音识别结果进行语义特征标注,得到语义标注结果;
采用序列标注模型对所述语义标注结果进行标识,得到已标注标点数据;其中,所述序列标注模型是根据已标注标点的训练数据进行深度学习训练得到的;
对所述已标注标点数据进行整理,得到最终标点添加结果。
可选的,对语音识别结果进行语义特征标注,得到语义标注结果,包括:
对语音识别结果进行分词,得到分词结果;
对所述分词结果中的每个词汇标注对应的词性,得到所述语义标注结果。
可选的,对语音识别结果进行语义特征标注,得到语义标注结果,包括:
对语音识别结果进行分词,得到分词结果;
对所述分词结果中的每个词汇标注对应的词性和词长,得到所述语义标注结果。
可选的,对语音识别结果进行语义特征标注,得到语义标注结果,包括:
对语音识别结果进行分词,得到分词结果;
对每个分词结果中的每个词汇进行句法分析,得到所述每个词汇对应的句法成分;
对所述分词结果中的所述每个词汇标注对应的词性、词长以及句法成分,得到所述语义标注结果。
可选的,采用序列标注模型对所述语义标注结果进行标识,得到已标注标点数据;其中,所述序列标注模型是根据已标注标点的训练数据进行深度学习训练得到的,包括:
采用已训练双向BiLSTM模型和已训练CRF模型对所述语义标注结果进行标识,得到所述已标注标点数据;其中,所述已训练双向BiLSTM模型和所述已训练CRF模型是根据已标注标点的训练数据进行深度学习训练得到的。
本申请还提供一种语音识别结果处理系统,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江核新同花顺网络信息股份有限公司,未经浙江核新同花顺网络信息股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910104210.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种文本分词方法及装置
- 下一篇:用于生成文本的方法和装置