[发明专利]一种基于负样本多样性的问答模型集成方法有效
申请号: | 202110516176.2 | 申请日: | 2021-05-12 |
公开(公告)号: | CN113254609B | 公开(公告)日: | 2022-08-09 |
发明(设计)人: | 方钰;翟鹏珺;崔雪 | 申请(专利权)人: | 同济大学 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F40/35;G16H80/00 |
代理公司: | 上海科律专利代理事务所(特殊普通合伙) 31290 | 代理人: | 叶凤 |
地址: | 200092 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 样本 多样性 问答 模型 集成 方法 | ||
一种基于负样本多样性的问答模型集成方法。自动问答系统的问答匹配阶段常通过集成模型来捕捉语料中多角度的信息,从而提升问答系统的准确性和稳定性。在中文医疗问答领域,现有问答模型集成方法大多数使用随机采样或单一相似度距离分段采样的方法获取负样本,忽略了负样本的多样性,进而导致基模型的多样性不足,影响了集成模型的效果。本发明根据正负样本间的多种相似度距离,分别对负样本进行排序和分段采样,由此构成多个训练样本集,并基于这些训练样本集训练出多个基模型最后进行集成,不仅弥补了基模型多样性的不足,也提升了问答模型的稳定性和准确率。
技术领域
本发明涉及自然语言处理领域,具体涉及问答系统中模型集成的处理。
模型集成是自动问答系统中提升问答模型性能的重要方法与关键技术。
背景技术
医疗问答模型是自动问答模型的一个应用分支,随着自然语言处理技术的提升已经成为一个重点研究和应用。相应的,越来越多患者倾向于通过线上健康社区寻求医疗帮助。然而,急剧增长的问题数量给医生带来了巨大的回复负担。为了缓解医生的工作负担以及满足用户快速得到答案的需求,大量研究者们投身于医疗问答领域的研究。而在医疗问答系统中,保证模型的准确性和鲁棒性是一个技术难点,为此,一些学者通过集成学习来关注更多数据信息,同时提升问答系统的性能。
目前中文医疗领域的模型集成方法在训练数据方面通常对负样本进行随机采样,或基于单一相似度距离分段采样,这些方法只关注了样本中实体间某一层次上的关联性对负样本进行采样,没有充分挖掘负样本的多样性。
发明内容
针对现有技术不足,本发明提出了一种基于负样本多样性的问答模型集成方法,在多相似度距离下对负样本进行分段采样,以此来构建多个训练集,并基于它们训练出多个基模型,旨在借助负样本的多样性来保证基模型的多样性,最终提高了生成的集成模型的准确性和鲁棒性。
医疗问答作为一种为用户提供医疗和健康类咨询的服务平台,需要具备较高的准确性和稳定性。在问答系统的问答匹配阶段,集成模型往往比使用单个学习器有更好的准确性和鲁棒性,因此集成学习也被引入问答领域的研究。模型观察不同的负样本能学到不同的语言表示信息,而目前针对集成模型的研究在模型训练阶段往往对负样本的多样性考虑不足,导致基模型的多样性有限,因此影响了最终集成模型的预测性能。
针对上述问题,本发明以提升中文医疗问答模型的稳定性和鲁棒性为目的,提出了一种基于负样本多相似度分段采样的模型集成方法。该方法根据正负样本间的多种相似度距离分别对负样本进行排序和分段采样,由此构成多个训练样本集,并基于它们训练出多个基模型,最后将基模型进行集成。
为了实现上述目的,本发明给出的技术方案为:
本发明提供一种基于知识图谱的医疗查询扩展方法,包括:
步骤1、对医疗问答对数据集进行预处理;
步骤2、负样本相似度排序;
步骤3、结合步骤2得到的负样本排序结果,对负样本进行分段采样,构建多个训练集并训练基模型;
步骤4、利用加权平均对步骤3中得到的基模型进行集成,从而得到最终的问答模型。
有益效果
本发明针对现有提升中文医疗问答模型性能的模型集成方法对负样本的多样性考虑不足的问题,设计了一种基于负样本多相似度分段采样的模型集成方法。该方法根据正负样本间的多种相似度距离分别对负样本进行排序和分段采样,以此得到多个训练样本集,并基于它们训练出多个基模型最后进行模型集成。该方法通过充分挖掘负样本的多样性来得到多样性的基模型,从而提高了最终集成模型的准确率。这对智慧社区场景下为居民提供便利的线上及时医疗服务、缓解医生的工作负担具有重大意义。
附图说明
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于同济大学,未经同济大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110516176.2/2.html,转载请声明来源钻瓜专利网。