[发明专利]一种基于机器学习的文章阅读理解答案检索方法及装置有效
申请号: | 202010044242.6 | 申请日: | 2020-01-15 |
公开(公告)号: | CN111241848B | 公开(公告)日: | 2020-12-01 |
发明(设计)人: | 宋永生;张柳涛;王楠;王逸飞 | 申请(专利权)人: | 江苏联著实业股份有限公司 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F40/289;G06F16/35;G06F16/33;G06N20/00 |
代理公司: | 连云港联创专利代理事务所(特殊普通合伙) 32330 | 代理人: | 赵晓琴 |
地址: | 210006 江苏省南京市*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 机器 学习 文章 阅读 理解 答案 检索 方法 装置 | ||
1.一种基于机器学习的文章阅读理解答案检索方法,其特征在于,所述方法包括:
根据语义规则提取文章中第一语句、第二语句和问题语句的关键词,获得第一核心词、第二核心词和问题核心词,其中,所述第一核心词与第二核心词不同;
根据预训练语句模型向量化表示所述第一核心词、所述第二核心词和所述问题核心词,获得第一核心词向量、第二核心词向量和问题核心词向量;
根据余弦距离计算所述问题核心词向量与所述第一核心词向量、所述第二核心词向量的相似度,获得第一相似度和第二相似度;
判断所述第一相似度和所述第二相似度的大小;
当所述第一相似度大于所述第二相似度时,将所述第一相似度对应的第一语句作为训练语料输入循环神经网络和多层感知机合并的神经网络训练,获得答案检索神经网络模型;
其中,所述根据语义规则提取文章中第一语句、第二语句和问题语句的核心词,获得第一核心词、第二核心词和问题核心词,包括:
提取所述第一语句、所述第二语句和所述问题语句的关键词和辅助词,获得第一关键词、第二关键词、问题关键词、第一辅助词、第二辅助词和问题辅助词;
根据所述第一语句、所述第二语句与所述问题语句的关键词和辅助词分别计算所述第一语句、所述第二语句与所述问题语句的公共词和差异词,获得多个的第一公共词、第一差异词、第二公共词和第二差异词;
对比所述第一公共词与所述第一差异词,对比所述第二公共词与第二差异词,获得所述第一核心词、所述第二核心词和所述问题核心词;
其中,所述获得第一相似度和第二相似度,还包括:
对比所述第一语句的多个第一差异词的相似度,其中,当超过两个的所述第一差异词的相似度高于第一预定阈值时,合并超过两个的所述第一差异词为第三公共词;
对比所述第二语句的多个第二差异词的相似度,其中,当超过两个的所述第二差异词的相似度高于第一预定阈值时,合并超过两个的所述第二差异词为第四公共词;
根据预训练语句模型合并计算所述第一公共词与所述第三公共词和所述第二公共词与第四公共词获得第一合并语句向量和第二合并语句向量;
计算所述问题核心词向量与所述第一合并语句向量、所述第二合并语句向量的相似度,获得第一相似度和第二相似度。
2.如权利要求1所述的方法,其特征在于,所述方法还包括:
根据文本分类模型对所述文章中的复杂句的子句分类,获得第一类型子句与第二类型子句;
对所述第一类型子句与所述第二类型子句设置权重值,确定第一权重值与第二权重值,其中,所述第一权重值与所述第二权重值不同;
根据语义规则与预训练语句模型确定所述第一类型子句与所述第二类型子句的第三核心词向量与第四核心词向量;
根据所述第一权重值与所述第二权重值计算所述第三核心词向量与所述第四核心词向量的加权求和,获得第一加权值与第二加权值;
根据所述余弦距离计算所述问题核心词向量与所述第三核心词向量与所述第四核心词向量的相似度,获得第三相似度和第四相似度;
根据所述第一加权值与所述第二加权值和所述第三相似度与所述第四相似度线性求和的得分对所述第三相似度和所述第四相似度按相似度大小排序,其中,当所述第三相似度大于所述第四相似度时,所述第三相似度对应的第一类型子句为答案检索神经网络模型的输出结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏联著实业股份有限公司,未经江苏联著实业股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010044242.6/1.html,转载请声明来源钻瓜专利网。