[发明专利]一种汉语相同音推荐方法、装置、存储介质及设备在审
申请号: | 202310091857.8 | 申请日: | 2023-01-17 |
公开(公告)号: | CN116072126A | 公开(公告)日: | 2023-05-05 |
发明(设计)人: | 郭浒生;黄玉龙;王龙;闫葛 | 申请(专利权)人: | 讯飞智元信息科技有限公司 |
主分类号: | G10L17/14 | 分类号: | G10L17/14 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 杨傥月 |
地址: | 230088 安徽省合肥市高*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 汉语 相同 推荐 方法 装置 存储 介质 设备 | ||
1.一种汉语相同音推荐方法,其特征在于,包括:
获取样本语音和待鉴定的目标语音;
利用预先构建的同音词库,对所述样本语音和所述目标语音进行音节识别,得到所述样本语音和所述目标语音各自包含的词条及各词条所对应的词频;
利用所述样本语音和所述目标语音各自包含的词条及各词条所对应的词频,构建词条矩阵和三元组;
对所述三元组进行排序处理,并根据处理结果,确定待推荐的相同音节所对应的词条信息,用以进行声纹鉴定。
2.根据权利要求1所述的方法,其特征在于,所述利用预先构建的同音词库,对所述样本语音和所述目标语音进行音节识别,得到所述样本语音和所述目标语音各自包含的词条及各词条所对应的词频,包括:
利用预先构建的停用词词库、轻声词词库和经验同音词词库,对所述样本语音和所述目标语音进行音节识别,得到所述样本语音和所述目标语音各自包含的词条及各词条所对应的词频。
3.根据权利要求2所述的方法,其特征在于,所述利用预先构建的停用词词库、轻声词词库和经验同音词词库,对所述样本语音和所述目标语音进行音节识别,得到所述样本语音和所述目标语音各自包含的词条及各词条所对应的词频,包括:
对所述样本语音和所述目标语音分别进行语音识别,得到所述样本语音包含的样本音节序列和样本汉字文档,以及所述目标语音包含的目标音节序列和目标汉字文档;
利用所述样本音节序列,对所述样本汉字文档进行分词,得到所述样本汉字文档对应的样本初步词条;以及利用所述目标音节序列,对所述目标汉字文档进行分词,得到所述目标汉字文档对应的目标初步词条;
对所述样本初步词条进行相同词条合并处理,得到合并后的样本初步词条;以及对所述目标初步词条进行相同词条合并处理,得到合并后的目标初步词条;
利用预先构建的停用词词库、轻声词词库和经验同音词词库,计算所述合并后的样本初步词条对应的词频,以及计算所述合并后的目标初步词条对应的词频。
4.根据权利要求3所述的方法,其特征在于,所述对所述样本初步词条进行相同词条合并处理,得到合并后的样本初步词条;以及对所述目标初步词条进行相同词条合并处理,得到合并后的目标初步词条,包括:
对所述样本初步词条进行相同词条合并处理,并将处理后的样本初步词条按照字母升序进行排序处理,得到合并后的样本初步词条;以及对所述目标初步词条进行相同词条合并处理,并将处理后的目标初步词条按照字母升序进行排序处理,得到合并后的目标初步词条。
5.根据权利要求3所述的方法,其特征在于,所述利用预先构建的停用词词库、轻声词词库和经验同音词词库,计算所述合并后的样本初步词条对应的词频,包括:
利用预先构建的停用词词库、轻声词词库和经验同音词词库,判断所述合并后的样本初步词条是否属于停用词、轻声词词库或经验同音词词库;
若是,则利用预设的停用词、轻声词或经验同音词对应的推荐权重,计算所述合并后的样本初步词条对应的词频。
6.根据权利要求1所述的方法,其特征在于,所述利用所述样本语音和所述目标语音各自包含的词条及各词条,构建词条矩阵和三元组,包括:
将所述样本语音包含的词条作为行,并将所述目标语音包含的词条作为列,构建词条矩阵;
依次遍历并比较所述词条矩阵行中样本语音包含的词条和列中目标语音词条包含的词条是否相同;
若是,则将样本语音中所述相同词条的词频与目标语音中所述相同词条的词频相乘,并利用得到的乘积结果,构建三元组。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于讯飞智元信息科技有限公司,未经讯飞智元信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310091857.8/1.html,转载请声明来源钻瓜专利网。