[发明专利]个性化词获取方法及装置有效
申请号: | 201810456332.9 | 申请日: | 2018-05-14 |
公开(公告)号: | CN108733650B | 公开(公告)日: | 2022-06-07 |
发明(设计)人: | 许丽;潘嘉;王智国;胡国平 | 申请(专利权)人: | 科大讯飞股份有限公司 |
主分类号: | G06F40/279 | 分类号: | G06F40/279;G06F40/289;G10L15/26 |
代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 王莹;李相雨 |
地址: | 230088 安徽省*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 个性化 获取 方法 装置 | ||
1.一种个性化词获取方法,其特征在于,包括:
获取识别文本及所述识别文本对应的用户确认文本,所述识别文本是对语音数据进行语音识别后得到的;
若所述识别文本与所述用户确认文本之间在内容上存在差异,且所述识别文本与所述用户确认文本之间满足第一预设规则,则根据所述识别文本与所述用户确认文本之间在内容上的差异,获取个性化词;
所述根据所述识别文本与所述用户确认文本之间在内容上的差异,获取个性化词,包括:
分别对所述识别文本及所述用户确认文本进行分词,得到所述识别文本对应的第一分词序列及所述用户确认文本对应的第二分词序列;
按照分词顺序逐一比较所述第一分词序列及所述第二分词序列中的每一分词,确定所述个性化词,所述个性化词为所述第二分词序列中在内容上与所述第一分词序列中分词之间具有差异的分词。
2.根据权利要求1所述的方法,其特征在于,所述第一预设规则为所述识别文本与所述用户确认文本中相同的字数大于第一预设阈值;和/或,所述识别文本与所述用户确认文本之间的编辑距离大于0且小于第二预设阈值。
3.根据权利要求1至2中任一项所述的方法,其特征在于,所述根据所述识别文本与所述用户确认文本之间在内容上的差异,获取个性化词之后,还包括:
基于第二预设规则对所述个性化词进行筛选,所述第二预设规则包括以下筛选方式中的至少一种,所述筛选方式分别为删除位于句首或句尾的词、删除停用词、删除数字词及删除词中总字数为0的词。
4.根据权利要求1至2中任一项所述的方法,其特征在于,所述根据所述识别文本与所述用户确认文本之间在内容上的差异,获取个性化词之后,还包括:
基于所述个性化词在所述用户确认文本中的上下文信息,对所述个性化词进行扩展;和/或,
若所述个性化词为专有名词,则基于名词属性对所述个性化词进行扩展。
5.根据权利要求1至2中任一项所述的方法,其特征在于,所述根据所述识别文本与所述用户确认文本之间在内容上的差异,获取个性化词之后,还包括:
将所述个性化词添加至个性化词库,所述个性化词库用于语音识别。
6.根据权利要求5中所述的方法,其特征在于,所述将所述个性化词添加至个性化词库之后,还包括:
基于所述个性化词库中每一个性化词在语音识别时的使用频率,对所述个性化词库中的个性化词进行删减。
7.根据权利要求5中所述的方法,其特征在于,所述将所述个性化词添加至个性化词库之后,还包括:
基于所述个性化词库对目标语音数据进行语音识别,得到若干个包含个性化词的待选目标识别文本;
基于每一待选目标识别文本中包含的个性化词所对应的激励权重,计算每一待选目标识别文本作为所述目标识别文本的可能性分值,并选取可能性分值最大的待选目标识别文本作为所述目标识别文本。
8.根据权利要求7中所述的方法,其特征在于,所述基于每一待选目标识别文本中包含的个性化词所对应的激励权重,计算每一待选目标识别文本作为语音识别结果的可能性分值之前,还包括:
根据所述个性化词库中每一个性化词的语言模型分值、每一个性化词在语音识别时被识别错误的总次数、以及每一个性化词在语音识别时被误触发的总次数,更新所述个性化词库中每一个性化词所对应的激励权重。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于科大讯飞股份有限公司,未经科大讯飞股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810456332.9/1.html,转载请声明来源钻瓜专利网。