[发明专利]一种基于语义排序和知识修正的多项选择问答方法有效
申请号: | 202011548750.4 | 申请日: | 2020-12-24 |
公开(公告)号: | CN112528003B | 公开(公告)日: | 2022-10-04 |
发明(设计)人: | 黄河燕;任慕成;高扬 | 申请(专利权)人: | 北京理工大学 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/33;G06F40/30;G06N3/04 |
代理公司: | 北京正阳理工知识产权代理事务所(普通合伙) 11639 | 代理人: | 张利萍 |
地址: | 100081 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 语义 排序 知识 修正 多项 选择 问答 方法 | ||
1.一种基于语义排序和知识修正的多项选择问答方法,其特征在于,所述多项选择问答,即针对一个问题,需要从两个及以上答案候选选项中寻找正确的答案选项;
包括以下步骤:
步骤1:根据问题及答案候选选项,利用TF-IDF技术,从外部语料库中进行知识检索,获得候选知识集合;其中,答案候选选项即一个问题下,可能是正确答案的选项,TF-IDF用以统计、评估一个字词对于一个文件集或语料库中一份文件的重要程度,外部语料库即与当前任务领域无关的文本,候选知识集合即包含若干个与当前问题相关的句子的集合;
步骤1.1:将问题与每个答案候选选项进行拼接构成查询句,记为S;其中,查询句即问题与答案候选选项拼接后形成的语句,用于从外部语料库中检索相关知识;
步骤1.2:将步骤1.1中得到的查询句进行步骤1.2.1至步骤1.2.2操作;
步骤1.2.1:剔除查询句中存在的停滞词语,其中,停滞词语即普遍的功能词,不具备任何实际含义;
步骤1.2.2:使用TF-IDF技术,计算步骤1.2.1的查询句与外部语料库中每个句子的匹配度;按照数值从大到小进行排序,选取前
步骤1.3:将同一个问题下的每个答案候选选项获得的步骤1.2.2中的候选知识集合进行汇总,选取前
步骤2:利用标注的语料及负采样技术训练知识修正模块;其中,负采样即根据正样本的构建方式采样生成与之相反的负样本;
步骤2.1:根据步骤2.1.1-步骤2.1.2构建供知识修正模块训练的数据集;
步骤2.1.1:提取步骤1.1中的问题和每个答案候选选项所构成的查询句
步骤2.1.2:对步骤2.1.1提取到查询句及对应的知识句,依照以下规则构建正负样例:
将正确答案候选选项与问题拼接所构成的查询句,与对应的知识句
步骤2.2:通过基于双向变换器的神经语言模型BERT,对步骤2.1.1中的查询句
步骤2.3:采用负采样技术,设立训练目标函数;针对步骤2.2获得的查询句和知识句的向量表示,将其代入如下公式:
其中,为激活函数,将变量映射到0-1之间;、分别是由两个不同初始权重的神经语言模型编码获得的查询句和知识句向量表示;为步骤2.1.2中标记为正例的查询句表示,为步骤2.1.2中标记为负例的查询句表示;T为点乘操作;
步骤2.4:使用梯度下降算法,优化目标函数中神经语言模型中的参数,使最小化;优化结束后得到知识修正模块中所有神经网络的最优参数;
步骤3:利用知识修正模块对候选知识集合进行语义排序;
步骤3.1:利用步骤2中训练得到知识修正模块中的神经语言模型,对步骤1.1中的查询句
步骤3.2:将和代入公式(2)中,获得置信度分数:
其中,置信度即能够体现答案本身质量的标识;
步骤3.3:利用步骤3.2计算得到的置信度分数,对步骤1.3中的候选知识集合
步骤4:结合语义排序后的知识,输入答案预测模型进行答案预测。
2.如权利要求1所述的一种基于语义排序和知识修正的多项选择问答方法,其特征在于,步骤4的具体实现方法如下:
步骤4.1:取步骤3.3中语义排序后的后续知识集合
步骤4.2:将步骤4.1中的背景知识段落、步骤1.1中的问题和答案候选选项进行拼接,将拼接后的语句以及对应的答案标签输入至由双向变换器的神经语言模型BERT和一层分类层叠加构建的答案预测模型中进行训练;
步骤4.3:使用梯度下降算法,优化交叉熵损失函数中双向变换器的神经语言模型参数、分类层的参数,使交叉熵损失函数最小化,优化结束后得到答案预测模型中神经网络的最优参数;
步骤4.4:使用步骤4.3中训练好的答案预测模型对测试样本数据进行预测,利用分类器最后的数值对每个答案候选选项进行排序,分数最高的答案候选选项为模型预测的最终选项。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学,未经北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011548750.4/1.html,转载请声明来源钻瓜专利网。