[发明专利]一种语音对话处理方法和系统有效
申请号: | 202010731224.5 | 申请日: | 2020-07-27 |
公开(公告)号: | CN111862977B | 公开(公告)日: | 2021-08-10 |
发明(设计)人: | 徐海洋;韩堃 | 申请(专利权)人: | 北京嘀嘀无限科技发展有限公司 |
主分类号: | G10L15/22 | 分类号: | G10L15/22;G10L15/18;G10L15/16 |
代理公司: | 成都七星天知识产权代理有限公司 51253 | 代理人: | 杨永梅 |
地址: | 100193 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 语音 对话 处理 方法 系统 | ||
1.一种方法,用于处理语音对话,其特征在于,所述方法包括:
获取目标语音对话数据;
基于文本嵌入模型、音标嵌入模型和角色嵌入模型,分别对所述目标语音对话数据进行向量转化,得到文本向量表示序列、音标向量表示序列和角色向量表示序列;
将所述文本向量表示序列、所述音标向量表示序列和所述角色向量表示序列输入训练好的语音对话编码模型,确定所述目标语音对话数据对应的表示向量;
将所述表示向量输入分类模型,确定所述目标语音对话数据的摘要。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取所述摘要的句子文本;
对所述句子文本进行文法校正。
3.根据权利要求1所述的方法,其特征在于,所述语音对话编码模型通过训练过程确定,所述训练过程包括:
获取样本语音对话数据;
基于文本嵌入模型、音标嵌入模型和角色嵌入模型,分别对所述样本语音对话数据进行向量转化,得到文本向量表示序列、音标向量表示序列和角色向量表示序列;
基于所述文本向量表示序列、所述音标向量表示序列和所述角色向量表示序列,以自监督学习的方式对语音对话编码模型进行预训练,得到预训练后的语音对话编码模型。
4.根据权利要求3所述的方法,其特征在于,所述训练过程包括:
所述文本嵌入模型、所述音标嵌入模型和所述角色嵌入模型中的至少一个与所述语音对话编码模型进行联合预训练。
5.根据权利要求3所述的方法,其特征在于,所述以自监督学习的方式对语音对话编码模型进行预训练,包括:
以所述文本向量表示序列、所述音标向量表示序列和所述角色向量表示序列中的至少一部分作为标注,所述标注至少包括所述角色向量表示序列中的部分元素。
6.根据权利要求5所述的方法,其特征在于,所述标注还包括所述文本向量表示序列中的关键词。
7.根据权利要求5所述的方法,其特征在于,所述标注还包括所述文本向量表示序列体现的句子顺序。
8.根据权利要求1所述的方法,其特征在于,所述文本嵌入模型包括:
词嵌入子模型,用于确定所述目标语音对话数据的词向量表示序列;
位置嵌入子模型,用于确定所述目标语音对话数据的位置向量表示序列;
段落嵌入子模型,用于确定所述目标语音对话数据的段落向量表示序列。
9.根据权利要求8所述的方法,其特征在于,所述文本向量表示序列通过合并所述词向量表示序列、所述位置向量表示序列和所述段落向量表示序列得到。
10.一种系统,用于处理语音对话,其特征在于,所述系统包括:
获取模块,用于获取目标语音对话数据;
确定模块,用于基于文本嵌入模型、音标嵌入模型和角色嵌入模型,分别对所述目标语音对话数据进行向量转化,得到文本向量表示序列、音标向量表示序列和角色向量表示序列;
输入模块,用于将所述文本向量表示序列、所述音标向量表示序列和所述角色向量表示序列输入训练好的语音对话编码模型,确定所述目标语音对话数据对应的表示向量;
处理模块,用于将所述表示向量输入分类模型,确定所述目标语音对话数据的摘要。
11.根据权利要求10所述的系统,其特征在于,所述处理模块还用于:
获取所述摘要的句子文本;
对所述句子文本进行文法校正。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京嘀嘀无限科技发展有限公司,未经北京嘀嘀无限科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010731224.5/1.html,转载请声明来源钻瓜专利网。