[发明专利]用于识别音频中的关键短语的方法、装置、设备和介质在审
申请号: | 201810949733.8 | 申请日: | 2018-08-20 |
公开(公告)号: | CN109241330A | 公开(公告)日: | 2019-01-18 |
发明(设计)人: | 王志华;杨天行;伍志鹏;彭彬;赵程缘 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06F16/63 | 分类号: | G06F16/63;G06F16/683 |
代理公司: | 北京市金杜律师事务所 11256 | 代理人: | 李辉 |
地址: | 100094 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 关键短语 训练数据 音频数据 训练文本 计算机可读存储介质 关键信息 特征信息 词语 | ||
1.一种用于训练关键短语识别模型的方法,包括:
获取第一训练数据,所述第一训练数据标识第一训练文本中的词语的特征信息;
获取第二训练数据,所述第二训练数据标识第二训练文本中的关键短语;以及
基于所述第一训练数据和所述第二训练数据来训练关键短语识别模型,以用于识别音频数据中的关键短语。
2.根据权利要求1所述的方法,其中获取第一训练数据包括:
获取所述第一训练文本;以及
通过对所述第一训练文本进行预处理来生成所述第一训练数据。
3.根据权利要求2所述的方法,其中获取所述第一训练文本包括:
获取用于训练所述关键短语识别模型的第一音频样本;以及
利用语音识别技术将所述第一音频样本转换成所述第一训练文本。
4.根据权利要求2所述的方法,其中对所述第一训练文本进行预处理包括:
将所述第一训练文本拆分成至少一个句子;以及
利用自然语言处理技术来确定所述至少一个句子中的所述词语的所述特征信息。
5.根据权利要求4所述的方法,其中所述特征信息包括所述词语的文本、词性、语义和语法信息中的至少一项。
6.根据权利要求1所述的方法,其中获取所述第二训练数据包括:
获取所述第二训练文本;以及
通过对所述第二训练文本进行预处理来生成所述第二训练数据。
7.根据权利要求6所述的方法,其中获取所述第二训练文本包括:
获取用于训练所述关键短语识别模型的第二音频样本;以及
利用语音识别技术将所述第二音频样本转换成所述第二训练文本。
8.根据权利要求6所述的方法,其中对所述第二训练文本进行预处理包括:
将所述第二训练文本拆分成至少一个句子;以及
利用多个标签来标识所述至少一个句子中的所述关键短语。
9.根据权利要求8所述的方法,其中利用多个标签来标识所述至少一个句子中的所述关键短语包括:
利用第一标签来标识所述关键短语的起始字符;
利用第二标签来标识所述关键短语的后续字符,所述后续字符在所述起始字符之后;以及
利用第三标签来标识所述至少一个句子中不属于所述关键短语的字符。
10.一种用于识别音频中的关键短语的方法,包括:
获取待识别的音频数据;以及
利用经训练的关键短语识别模型来识别所述音频数据中的关键短语,其中所述关键短语识别模型基于第一训练数据和第二训练数据而被训练,所述第一训练数据标识第一训练文本中的词语的特征信息并且所述第二训练数据标识第二训练文本中的关键短语。
11.根据权利要求10所述的方法,其中识别所述音频数据中的关键短语包括:
利用语音识别技术将所述音频数据转换成与所述音频数据相对应的文本;
将所述文本拆分成至少一个句子;
利用所述关键短语识别模型来确定所述至少一个句子中的字符的相应标签;以及
基于所述相应标签来识别所述音频数据中的关键短语。
12.根据权利要求11所述的方法,其中所述相应标签包括以下之一:
第一标签,其指示所述字符为所述关键短语的起始字符;
第二标签,其指示所述字符为所述关键短语的后续字符,其中所述后续字符在所述起始字符之后;以及
第三标签,其指示所述字符不属于所述关键短语。
13.根据权利要求12所述的方法,其中基于所述相应标签来识别所述音频数据中的关键短语包括:
将由所述第一标签标识的所述起始字符和由所述第二标签标识的所述后续字符的集合识别为所述关键短语。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810949733.8/1.html,转载请声明来源钻瓜专利网。