[发明专利]数据处理方法和服务器有效
申请号: | 201810094342.2 | 申请日: | 2018-01-31 |
公开(公告)号: | CN110111780B | 公开(公告)日: | 2023-04-25 |
发明(设计)人: | 曹元斌;王剑;王天舟;温建华;李生;郎君;司罗 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G10L15/22 | 分类号: | G10L15/22;G10L15/01;G10L15/02;G10L15/06;G10L15/18;G10L15/26;G10L15/30;H04L51/02 |
代理公司: | 北京三友知识产权代理有限公司 11127 | 代理人: | 李辉;徐焕 |
地址: | 英属开曼*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据处理 方法 服务器 | ||
1.一种数据处理方法,其特征在于,应用于聊天机器人中,包括:
获取语音数据;
根据语音识别模型将所述语音数据转换为文本数据,其中,所述语音识别模型是基于特定领域语言模型对基准语言模型进行线性插值得到的目标语言模型建立的,其中,所述特定领域语言模型是基于目标特定领域的语料数据训练得到的,所述特定领域与所述语音数据的内容相匹配;
其中,根据语音识别模型将所述语音数据转换为文本数据,包括:
提取所述语音数据中的特征数据;
通过声学模型将所述特征数据转换为发音数据;
通过所述语音识别模型,将所述发音数据转换为文本数据。
2.根据权利要求1所述的方法,其特征在于,在获取语音数据之前,还包括:
获取配置所述聊天机器人时输入的语句内容;
确定输入的语句内容所圈定出的关键词;
获取确定出的关键词对应的实体类型,将获取的实体类型作为原始语料数据;
根据所述原始语料数据生成得到特定领域语言模型;
利用特定领域语言模型对基准语言模型进行线性插值得到目标语言模型。
3.根据权利要求1所述的方法,其特征在于,在将发音数据转换为文本数据之后,所述方法还包括:
获取发音数据在声学模型中的得分和文本数据在语音识别模型中的得分;
根据发音数据在声学模型中的得分和文本数据在语音识别模型中的得分,得到句子得分;
将得分最高的句子,作为所述语音数据转换得到的文本数据。
4.根据权利要求1所述的方法,其特征在于,通过所述语音识别模型,将所述发音数据转换为文本数据,包括:
将所述发音数据翻译为字符串;
基于实体词典,通过最大正向匹配对所述字符串进行切词处理;
将切词处理得到的词替换为实体词典对应的实体类型;
枚举所有可能的切词结果,并在所述特定领域语言模型的索引中搜索计算对应字符串的概率;
将概率最高的字符串切词对应的输入字符串作为目标语句。
5.一种数据处理服务器,其特征在于,应用于聊天机器人中,包括处理器以及用于存储处理器可执行指令的存储器,所述处理器执行所述指令时实现如下步骤:
获取语音数据;
根据语音识别模型将所述语音数据转换为文本数据,其中,所述语音识别模型是基于特定领域语言模型对基准语言模型进行线性插值得到的目标语言模型建立的,其中,所述特定领域语言模型是基于目标特定领域的语料数据训练得到的,所述特定领域与所述语音数据的内容相匹配;
其中,根据语音识别模型将所述语音数据转换为文本数据,包括:
提取所述语音数据中的特征数据;
通过声学模型将所述特征数据转换为发音数据;
通过所述语音识别模型,将所述发音数据转换为文本数据。
6.根据权利要求5所述的服务器,其特征在于,在获取语音数据之前,还包括:
获取配置所述聊天机器人时输入的语句内容;
确定输入的语句内容所圈定出的关键词;
获取确定出的关键词对应的实体类型,将获取的实体类型作为原始语料数据;
根据所述原始语料数据生成得到特定领域语言语音模型;
利用特定领域语言语音模型对基准语言模型进行插值得到目标语言模型。
7.根据权利要求5所述的服务器,其特征在于,在将发音数据转换为文本数据之后,还包括:
获取发音数据在声学模型中的得分和文本数据在语音识别模型中的得分;
根据发音数据在声学模型中的得分和文本数据在语音识别模型中的得分,得到句子得分;
将得分最高的句子,作为所述语音数据转换得到的文本数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810094342.2/1.html,转载请声明来源钻瓜专利网。