[发明专利]一种基于多层语义特征提取结构的问答文本匹配方法有效

专利信息
申请号: 202010554563.0 申请日: 2020-06-17
公开(公告)号: CN111831789B 公开(公告)日: 2023-10-24
发明(设计)人: 谭华;徐维超;陈昌润 申请(专利权)人: 广东工业大学
主分类号: G06F16/33 分类号: G06F16/33;G06F16/332;G06F40/211;G06F40/289;G06F40/30;G06N3/0455;G06N3/0464;G06N3/048;G06N3/08
代理公司: 广州粤高专利商标代理有限公司 44102 代理人: 张金福
地址: 510060 广东*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 多层 语义 特征 提取 结构 问答 文本 匹配 方法
【权利要求书】:

1.一种基于多层语义特征提取结构的问答文本匹配方法,其特征在于,包括以下步骤:

S1:获取问题与回答文本数据集,并构建问题与错误回答对;

S2:将问题与回答文本数据集进行预处理得到初始矩阵;

S3:将问题与回答文本数据集中的问题文本与回答文本转换成词向量,所述词向量用于表示文本词汇的含义,将问题文本的词向量、回答文本的词向量分别结合形成问题文本句向量、回答文本句向量;

S4:构建文本匹配的深度学习模型的多层上下文编码结构,将问题文本句向量、回答文本句向量输入到所述的多层上下文编码结构中进行编码;

S5:使用卷积神经网络对每层上下文编码结构的输出进行卷积提取问题文本与回答文本的句子特征表示;

S6:每一层上下文编码结构的输出经过卷积之后,使用最大池化层提取多层中的语义特征作为句子的最终语义特征表示,所述句子的最终语义特征表示包括:问题文本的句子特征表示和回答文本的句子特征表示;

S7:计算问题文本的句子特征表示和回答文本的句子特征表示的余弦相似度,将问题文本与所有的回答文本匹配完后,选取与问题文本匹配到的余弦相似度最大的回答文本作为答案输出。

2.根据权利要求1所述的一种基于多层语义特征提取结构的问答文本匹配方法,其特征在于,所述问题与回答文本数据集包括问题及问题对应的正确答案、问题与错误回答,所述问题与错误回答是对每个问题从预设的答案池中随机抽取一条不是问题的答案作为负样本,构成问题与错误回答。

3.根据权利要求1所述的一种基于多层语义特征提取结构的问答文本匹配方法,其特征在于,问题与回答文本数据集进行预处理包括:

问答数据的清洗,分别对问题与回答数据集中的未登录词、停用词、以及问题文本与回答文本字符数小于预设字符数的数据项进行清洗;

对清洗后的问题与回答文本数据集进行分词操作和词性标注操作。

4.根据权利要求1所述的一种基于多层语义特征提取结构的问答文本匹配方法,其特征在于,所述将问题与回答文本数据集中的问题文本与回答文本转换成词向量是通过BERT模型的预训练模型的固定参数的词向量神经网络将问题文本与回答文本的词转化对应的词向量并将问题文本与回答文本对应的词向量构建成词向量矩阵,所述词向量矩阵行数为每个问题或回答文本的次数,列数为每个词对应向量所指定的维数。

5.根据权利要求1所述的一种基于多层语义特征提取结构的问答文本匹配方法,其特征在于,所述深度学习模型的多层上下文编码结构为自注意力机制Transformer单元,共有12层Transformer编码结构,所述12层Transformer编码结构依次串联,每一层结构具有输出,问题文本句向量、回答文本句向量输入至多层上下文编码结构的第一次层,第一层的输出逐层进行传递同时每一层也输出当前层的编码结果矩阵,保存每一层的输出上下文语义信息结果矩阵,用于下一层的输入数据。

6.根据权利要求1所述的一种基于多层语义特征提取结构的问答文本匹配方法,其特征在于,使用卷积神经网络对每层上下文编码结构的输出进行卷积提取问题文本与回答文本的句子特征表示具体为:

使用不同大小卷积核的卷积神经网络对每一层的上下文语义特征进行卷积操作;

将不同大小卷积核的卷积神经网络卷积提取出的语义特征结果整合到一起;

每一层的语义特征作为一个通道,使用最大池化提取12层中最大的语义特征;

池化层输出的语义特征矩阵是句子最后经过多层语义层提取的语义特征,也就是句子的特征表示;

将问题句子的特征表示与回答句子的特征表示进行匹配获取匹配结果。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东工业大学,未经广东工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010554563.0/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top