[发明专利]问答匹配处理、模型训练方法、装置、设备及存储介质在审
申请号: | 201910569979.7 | 申请日: | 2019-06-27 |
公开(公告)号: | CN110442675A | 公开(公告)日: | 2019-11-12 |
发明(设计)人: | 金戈;徐亮 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/332;G06F16/35;G06F17/27;G10L15/04;G10L15/26;G10L15/30;H04L9/06 |
代理公司: | 深圳市力道知识产权代理事务所(普通合伙) 44507 | 代理人: | 何姣 |
地址: | 518000 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 特征提取 注意力 子模型 嵌入 注意力机制 表示数据 存储介质 模型训练 匹配处理 匹配数据 特征向量 问题文本 分词 匹配 文本 自然语言处理 分词处理 模型提取 语料 输出 申请 | ||
1.一种问答匹配处理方法,其特征在于,包括:
获取问题文本和回答文本;
对所述问题文本和回答文本进行分词处理,得到语料分词数据;
对所述语料分词数据进行嵌入处理,得到嵌入表示数据;
基于特征提取子模型,对所述嵌入表示数据进行特征提取得到自注意力特征向量,所述特征提取子模型为基于自注意力机制的模型;
基于匹配子模型,根据所述自注意力特征向量生成问答匹配数据,输出所述问答匹配数据。
2.如权利要求1所述的问答匹配处理方法,其特征在于:所述获取问题文本和回答文本,包括:
从终端获取所述终端加密后的问题语音和所述终端加密后的回答语音,以及所述终端提取加密秘钥的语音片段;
识别所述语音片段中的字符,得到解密秘钥;
根据所述解密秘钥对所述加密后的问题语音和所述加密后的回答语音进行解密,得到问题语音和回答语音;
对所述问题语音进行语音识别得到问题文本,对所述回答语音进行语音识别得到回答文本。
3.如权利要求1所述的问答匹配处理方法,其特征在于,所述对所述问题文本和回答文本进行分词处理,得到语料分词数据,包括:
根据预设的词典,对所述问题文本进行分词处理,得到问题分词数据;
根据预设的词典,对所述回答文本进行分词处理,得到回答分词数据。
4.如权利要求3所述的问答匹配处理方法,其特征在于,所述对所述语料分词数据进行嵌入处理,得到嵌入表示数据,包括:
对所述问题分词数据和所述回答分词数据的分词信息、段落信息、位置信息进行嵌入处理,所述问题分词数据的段落信息与所述回答分词数据的段落信息不同;
将所述问题分词数据和所述回答分词数据的分词信息、段落信息、位置信息的嵌入结果相加,得到嵌入表示数据。
5.如权利要求1-4中任一项所述的问答匹配处理方法,其特征在于,所述基于匹配子模型,根据所述自注意力特征向量生成问答匹配数据,输出所述问答匹配数据,包括:
基于训练好的匹配子模型,对所述自注意力特征向量进行降维处理,得到对应于匹配和不匹配两个类别的二维向量;
基于所述匹配子模型,对所述二维向量进行归一化处理,根据处理后的二维向量得到问答匹配数据,输出所述问答匹配数据。
6.一种问答匹配模型训练方法,其特征在于,包括:
获取问答匹配模型,所述问答匹配模型包括预训练的BERT模型和连接于所述BERT模型的匹配子模型;
获取训练数据,所述训练数据包括问题文本样本、与所述问题文本样本对应的回答文本样本,以及所述回答文本样本对应的匹配度数据;
对所述训练数据中的问题文本样本、回答文本样本进行分词处理,得到样本分词数据;
对所述样本分词数据进行嵌入处理,得到样本表示数据;
所述BERT模型对所述样本表示数据进行特征提取,得到自注意力特征向量;
所述匹配子模型根据所述自注意力特征向量生成问答匹配数据;
基于预设的损失函数,根据所述问答匹配数据和所述匹配度数据计算损失值,根据所述损失值调整所述问答匹配模型中的参数。
7.如权利要求6所述的问答匹配模型训练方法,其特征在于:所述对所述训练数据中的问题文本样本、回答文本样本进行分词处理,得到样本分词数据,包括:
根据预设的词典,对所述问题文本样本进行分词处理,得到问题分词数据;
根据预设的词典,对所述回答文本样本进行分词处理,得到回答分词数据;
所述对所述样本分词数据进行嵌入处理,得到样本表示数据,包括:
对所述问题分词数据和所述回答分词数据的分词信息、段落信息、位置信息进行嵌入处理,所述问题分词数据的段落信息与所述回答分词数据的段落信息不同;
将所述问题分词数据和所述回答分词数据的分词信息、段落信息、位置信息的嵌入结果相加,得到样本表示数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910569979.7/1.html,转载请声明来源钻瓜专利网。