[发明专利]一种阅读理解模型训练数据的过滤方法及装置有效
申请号: | 201811644614.8 | 申请日: | 2018-12-29 |
公开(公告)号: | CN109766424B | 公开(公告)日: | 2021-11-19 |
发明(设计)人: | 李健铨;刘小康;晋耀红 | 申请(专利权)人: | 安徽省泰岳祥升软件有限公司 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/33;G06F16/35 |
代理公司: | 北京弘权知识产权代理有限公司 11363 | 代理人: | 逯长明;许伟群 |
地址: | 230088 安徽省合肥市高新区习友路333*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本申请公开一种阅读理解模型训练数据的过滤方法及装置,首先获取输入文本,将输入文本表示为包含词汇共现信息和位置编码信息的第二词向量;其次根据输入文本的注意力对第二词向量进行加权;对第二词向量的加权结果进行归一化处理生成第一输出矩阵;再对第一输出矩阵进行全连接的线性变换处理并进行归一化处理,生成第二输出矩阵;然后根据第二输出矩阵生成低维特征向量;最后对低维特征向量进行归一化处理,得到所述答案与所述查询语句的匹配度;根据预设的过滤条件过滤所述匹配度相应的输入文本。本申请方法按照答案与查询语句的匹配度对阅读理解模型训练数据进行过滤,优化训练数据,剔除错误数据,有利于提升模型性能。 | ||
搜索关键词: | 一种 阅读 理解 模型 训练 数据 过滤 方法 装置 | ||
【主权项】:
1.一种阅读理解模型训练数据的过滤方法,其特征在于,所述方法包括:获取输入文本,将所述输入文本表示为第一词向量,根据所述第一词向量生成包含词汇共现信息和位置编码信息的第二词向量;所述输入文本的内容包括篇章语句、查询语句以及答案;所述词汇共现信息表征词汇在篇章语句和查询语句中的共现性;根据所述第二词向量生成输入文本的注意力,并根据所述注意力对第二词向量进行加权,对所述第二词向量的加权结果进行归一化处理,生成第一输出矩阵;对所述第一输出矩阵进行全连接的线性变换处理,并对线性变换结果进行归一化处理,生成第二输出矩阵;根据所述第二输出矩阵生成低维特征向量;对所述低维特征向量进行归一化处理,得到所述答案与所述查询语句的匹配度,根据预设的过滤条件过滤所述匹配度相应的输入文本。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于安徽省泰岳祥升软件有限公司,未经安徽省泰岳祥升软件有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201811644614.8/,转载请声明来源钻瓜专利网。