[发明专利]基于多个预测模型的标点符号预测方法及相关设备有效
申请号: | 201910515571.1 | 申请日: | 2019-06-14 |
公开(公告)号: | CN110413987B | 公开(公告)日: | 2023-05-30 |
发明(设计)人: | 李秀丰 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G06F40/205 | 分类号: | G06F40/205;G06N3/0464 |
代理公司: | 北京市京大律师事务所 11321 | 代理人: | 高茹 |
地址: | 518033 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 预测 模型 标点符号 方法 相关 设备 | ||
本申请涉及人工智能领域,本申请公开了一种基于多个预测模型的标点符号预测方法及相关设备,所述方法包括:构建三个标点符号预测模型,将待预测文本分别输入三个标点符号预测模型,根据三个标点符号预测模型的预测结果进行分析,并根据分析结果进行预测输出。本申请通过使用双向递归神经网络进行标点预测,并结合关键词匹配和语音停顿预测模型,可以有效的提高标点符号预测准确度。
技术领域
本申请涉及人工智能领域,特别涉及一种基于多个预测模型的标点符号预测方法及相关设备。
背景技术
标点预测属于语音识别的后处理技术领域,即在将语音转换成文字之后,需要对转换出来的文字进行后处理,优化语音识别产品的用户体验,主要包括口语顺滑、标点预测和逆文本化。在得到初始的转译文本之后,是一整句的话,没有标点符号,用户体验比较差。但是,在经过了标点预测之后,会输出带标点符号的句子,会很大的提升用户体验。
目前的标点符号预测都是基于关键词匹配和语音停顿的长短来进行标点符号的预测,没有包含上下文信息,预测错误率高。
发明内容
本申请的目的在于针对现有技术的不足,提供一种基于多个预测模型的标点符号预测方法及相关设备,通过使用双向递归神经网络进行标点预测,并结合关键词匹配和语音停顿预测模型,可以有效的提高标点符号预测准确度。
为达到上述目的,本申请的技术方案提供一种基于多个预测模型的标点符号预测方法及相关设备。
本申请公开了一种基于多个预测模型的标点符号预测方法,包括以下步骤:
构建第一标点符号预测模型、第二标点符号预测模型及第三标点符号预测模型,并分别为所述第一标点符号预测模型、第二标点符号预测模型及第三标点符号预测模型预先配置预测概率权重;
获取待预测文本,将所述待预测文本输入所述第一标点符号预测模型,获取所述第一标点符号预测模型的预测结果;
将所述待预测文本输入所述第二标点符号预测模型,获取所述第二标点符号预测模型的预测结果;
将所述待预测文本输入所述第三标点符号预测模型,获取所述第三标点符号预测模型的预测结果;
根据所述第一标点符号预测模型、第二标点符号预测模型及第三标点符号预测模型的预测结果及预测概率权重进行所述待预测文本的标点符号的预测。
较佳地,所述构建第一标点符号预测模型、第二标点符号预测模型及第三标点符号预测模型,包括:
构建双向递归神经网络标点符号预测模型、语音停顿标点符号预测模型及关键词匹配标点符号预测模型,并在所述双向递归神经网络标点符号预测模型中创建注意力层,所述注意力层的注意力机制满足公式:
其中,αij=softmax(vaTtanh(Wasi-1+Uahj)),vaT为注意力矩阵,Wa为过往时刻的隐含层激活矩阵,si-1为过往时刻的隐含层激活的输出,Ua为当前时刻的隐含层输出矩阵,hj为当前时刻的隐含层输出,αij为注意力层的激活的输出,ci为经过注意力机制的输出层输出。
较佳地,所述将所述待预测文本输入所述第一标点符号预测模型,获取所述第一标点符号预测模型的预测结果,包括:
将所述待预测文本输入双向递归神经网络标点符号预测模型,获取所述双向递归神经网络标点符号预测模型的预测项及与所述预测项对应的预测概率;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910515571.1/2.html,转载请声明来源钻瓜专利网。