[发明专利]一种针对特定场景的语音转文字的优化方法及系统有效
申请号: | 201811451421.0 | 申请日: | 2018-11-30 |
公开(公告)号: | CN109584882B | 公开(公告)日: | 2022-12-27 |
发明(设计)人: | 黄奕然;潘志锐;马锋;马如明 | 申请(专利权)人: | 南京天溯自动化控制系统有限公司 |
主分类号: | G10L15/26 | 分类号: | G10L15/26;G06F40/289;G06F40/30 |
代理公司: | 南京经纬专利商标代理有限公司 32200 | 代理人: | 朱小兵 |
地址: | 210019 江苏省南京市雨*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 针对 特定 场景 语音 转文 优化 方法 系统 | ||
1.一种针对特定业务场景的语音转文字的优化方法,其特征在于,包括以下步骤:
(1)首先收集该特定业务场景所需的业务数据,根据采集到的数据,经过算法库和人工标注得到不同分类场景的文本库;
(2)在语音转换文字的过程中,当一条语音被录入系统中时,通过常规语音转换工具将语音转换为文字,然后将文字的内容做分词切割处理;
(3)将切割处理后的各个分词与步骤(1)训练得到的文本库做比对,通过tf-idf词频算法做统计,以确认各词汇是否是属于本系统的业务词汇;
(4)根据步骤(3)中的比对方法对该条语音的首尾词做有效性检查,确定首尾词语是否是有效词语,若不是,则在业务文本库中寻找最接近的词对其做补充修复,具体如下:
(401)取第一个词和最后一个词,通过tf-idf词频算法和所有文本词库做对比,若词语在词库中是有所属的,则认为该词语是有意义的词语,若未发现所属,则认为这个词是出现转换遗漏的情况,从各词库中找出与这个词最相近的词用来替换这个词,以完成漏字修复;
(402)将所有分词依次和易混淆的非本系统业务词语词库、易混淆的非本系统业务词语词库、本系统业务词语词库各文本词库做对比分析;若有词语是属于易混淆的非本系统业务词语词库的,则将该词汇替换为这个词记录的对应的正确的本系统业务词汇,完成业务错词修复;
(403)若某个在易混淆的非本系统业务词语词库中有所属的词被标记了业务分类,需要根据使用者的身份识别出其所属的业务系统,然后选择该业务系统的词库对应的词汇;
(404)在完成业务错词修复以后,会把该语音所有在本系统业务词语词库有所属的词语做记录,视为这句话的业务语义;
(5)完成该语音的所有分词的修复处理后,最终得到最适应该业务场景的文字转换结果。
2.根据权利要求1所述的优化方法,其特征在于,步骤(1)收集该特定业务场景所需的业务数据,包括三种类型的数据:
(1)系统数据库中的业务数据,即本场景中固定的业务数据;
(2)语音翻译结果,通过人工标注的方式标明出易混淆的非本系统的词汇;
(3)修正后的数据。
3.根据权利要求1所述的优化方法,其特征在于,步骤(1)中所述得到不同分类场景的文本库,具体包括:常用语言习惯词库、易混淆的非本系统业务词语词库、本系统业务词语词库,在易混淆的非本系统业务词语词库中记录非本系统词语、本系统词语和业务标注。
4.根据权利要求1所述的优化方法,其特征在于,步骤(3)还包括对易混淆词语做处理:若属于业务词汇和日常词汇的混淆,则使用业务词汇,若是属于多个业务词汇之间的混淆,则根据使用者的身份做选择依据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京天溯自动化控制系统有限公司,未经南京天溯自动化控制系统有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811451421.0/1.html,转载请声明来源钻瓜专利网。