[发明专利]一种基于负样本多样性的问答模型集成方法有效
申请号: | 202110516176.2 | 申请日: | 2021-05-12 |
公开(公告)号: | CN113254609B | 公开(公告)日: | 2022-08-09 |
发明(设计)人: | 方钰;翟鹏珺;崔雪 | 申请(专利权)人: | 同济大学 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F40/35;G16H80/00 |
代理公司: | 上海科律专利代理事务所(特殊普通合伙) 31290 | 代理人: | 叶凤 |
地址: | 200092 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 样本 多样性 问答 模型 集成 方法 | ||
1.一种基于负样本多样性的问答模型集成方法,其特征在于,包括
步骤1、对医疗问答对数据集进行预处理;
步骤2、负样本相似度排序;
步骤3、结合步骤2得到的负样本排序结果,对负样本进行分段采样,构建多个训练集并训练基模型;
步骤4、利用加权平均对步骤3中得到的基模型进行集成,从而得到最终的问答模型;
其特征在于,第一步:中文医疗问答对数据集预处理;
1.1整合问答对数据集
删除未包含答案、表达不明确、问句或答句中包含图片的无效问答对;为了确保数据集的平衡性,删除疾病诊断类、疾病治疗类、疾病症状类、疾病原因类四大类之外的问答句;将整合好的数据集提供给步骤1.2;
1.2去除停用词
利用停用词词表去除问答对数据集中问句的停用词,包括使用频率高又无实际含义的词汇;去除停用词后的结果提供给步骤1.3和步骤1.4;
1.3标注问答对正样本
对步骤1.2提供的数据集中每个问句对应的正确答案进行标注,由此获得问答对的正样本,将标注结果提供给步骤1.4;
1.4随机初始化问答对负样本
基于步骤1.3标注的问答对正样本,从步骤1.2提供的所有答案中随机给问句匹配答案,这个答案不能与正样本中答案相同,之后将这些问答对标注为负样本,从而完成问答对负样本的随机初始化;标注后即完成了步骤1对于问答对数据集的预处理工作,将预处理后的数据集中的问句提供给步骤2、步骤3和步骤4;
第二步:负样本相似度排序;
2.1计算正负样本的词性相似度
对步骤1得到的问答对正样本和负样本中的答案,利用能够基于统计的方法给出词语在文本中重要程度的tfidf算法计算答案之间的距离,将结果提供给步骤2.2;
2.2计算词汇权重
步骤1所提供的的问答语料属于医疗领域,其中领域词汇往往比普通词汇更具有区分度和重要性,因此在步骤2.1的基础上,通过赋予医疗领域词汇更高的权重来凸显领域词汇的重要性,即采用领域词加权的tfidf算法对正负样本的词形相似度距离计算进行优化;
权重的取值会直接影响相似度算法的性能,设计了预实验来确定步骤1提供的问答语料中领域词汇和普通词汇的权重比值;预实验以ACC@1为评价指标,通过调整普通词汇与领域词汇的权重比例来比较初始集成模型性能的变化;这里,初始集成模型采用组合了6个基于负样本词形相似度分段采样得到的BIGRU_CNN模型;
当普通词汇与领域词汇的权重比为0.6时初始集成模型的效果最好,因此在基于领域词加权的tfidf算法中,领域词汇与普通词汇的权重公式如公式(1)、(2)所示;其中ω1为领域词汇,c1为普通词汇,W′为基于词频和逆文本频率指数的原始权重,W(ω1)为加权后的领域词汇权重,W(c1)为加权后的普通词汇权重;
W(ω1)=1*W′(ω1) (1)
W(c1)=0.6*W′(c1) (2)
将W(ω1)和W(c1)引入到tfidf算法中,得到的词性相似度结果并进行由大到小排序,将排序后的结果提供给步骤3;
2.3计算正负样本中领域词汇间相似度
由于CMeSH(Chinese Medical Subject Headings)中的树状结构能清晰地展示医疗领域词间的语义关系,利用CMeSH来计算步骤1提供的正负样本中答案所包含医学领域词汇间的相似度,并将该相似度结果提供给步骤2.4;具体的,通过医学领域词汇ω1,ω2间的语义距离来计算领域词汇间的语义相似度Sim(ω1,ω2),相似度计算公式如公式(3)所示,其中,Dist(ω1,ω2)代表领域词间的语义距离:
2.4计算正负样本的语义相似度
根据步骤2.3提供的领域词汇相似度,正负样本的答案间所对应的语义相似度按照公式(4)进行计算,并将计算结果由大到小排序后提供给步骤3;其中,M和N分别为两个句子中的词汇集合,N1,N2,…,Nn为集合N中的词汇,医学领域词汇ω与句中词汇的最大相似度maxValue(ω,N)的计算公式如公式(5)所示:
maxValue(ω,N)=max(sim(ω,N1),sim(ω,N2),…,sim(ω,Nn)) (5)。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于同济大学,未经同济大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110516176.2/1.html,转载请声明来源钻瓜专利网。