[发明专利]排序模型确定方法、排序方法、装置及电子设备在审
申请号: | 202010750541.1 | 申请日: | 2020-07-30 |
公开(公告)号: | CN111858895A | 公开(公告)日: | 2020-10-30 |
发明(设计)人: | 王福钋;杜新凯;韩佳;史辉;高峰;刘谦;史祎凡;蔡岩松 | 申请(专利权)人: | 阳光保险集团股份有限公司 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/335;G06F16/9535;G06K9/62 |
代理公司: | 北京超凡宏宇专利代理事务所(特殊普通合伙) 11463 | 代理人: | 蒋姗 |
地址: | 518000 广东省深圳市福田*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 排序 模型 确定 方法 装置 电子设备 | ||
本申请涉及一种排序模型确定方法、排序方法、装置及电子设备。排序模型确定方法包括:针对多个候选文档集中的每个候选文档集,根据训练问题集中每个训练问题对应的问题答案,为候选文档集包括的每篇候选文档添加文档标记;针对多个候选文档集中的每个候选文档集,构建对应的训练数据集,以获得多个训练数据集,训练数据集包括训练问题集中每个训练问题,以及训练数据集对应的候选文档集中,添加有文档标记的每篇候选文档;通过多个训练数据集,分别对预训练语言模型进行训练,获得多个排序模型;分别对多个排序模型进行测试,获得多个测试结果,最终,从多个排序模型中选取出目标模型。前述排序模型确定方法能保证目标模型输出结果的准确性。
技术领域
本申请涉及机器阅读理解技术领域,具体而言,涉及一种排序模型确定方法、排序方法、装置及电子设备。
背景技术
近些年,机器阅读理解被广泛的应用于各种文章的动态信息抽取,以及各种问答机器人的辅助上,然而,在未给定回答目标问题的文档时,想要获得答案,召回文档就显得至关重要了。目前,召回文档的通用办法是通过搜索引擎,从文档数据库中,召回多个与目标问题对应的多个候选文档。以Elastic Search搜索引擎为例,虽然其召回TOP10的准确率已经达到90%,但是对于基于阅读理解式的问答系统,从TOP10的候选文档中去寻找答案的计算量和准确度都是一种挑战。另外,现有的预训练语言模型都是通用领域的,通过通用领域的预训练语言模型去处理领域内任务会损失一定程度的准确度。
发明内容
本申请的目的在于,提供一种排序模型确定方法、排序方法、装置及电子设备,以解决上述问题。
第一方面,本申请提供的排序模型确定方法,包括:
通过搜索引擎,从文档数据库中,召回多个与训练问题集对应的候选文档集,多个候选文档集中,每个候选文档集包括的候选文档数量不同;
针对多个候选文档集中的每个候选文档集,根据训练问题集中每个训练问题对应的问题答案,为候选文档集包括的每篇候选文档添加文档标记;
针对多个候选文档集中的每个候选文档集,构建对应的训练数据集,以获得多个训练数据集,训练数据集包括训练问题集中每个训练问题,以及训练数据集对应的候选文档集中,添加有文档标记的每篇候选文档;
通过多个训练数据集,分别对预训练语言模型进行训练,获得多个排序模型;
分别对多个排序模型进行测试,获得多个测试结果,以根据多个测试结果,从多个排序模型中选取出目标模型。
本申请实施例提供的排序模型确定方法实施过程结合了搜索引擎和预训练语言模型,同时,由于通过多个训练数据集,分别对预训练语言模型进行训练,获得多个排序模型,而每个训练数据集中包括的候选文档数量不同,也即,每个训练数据集的大小是不同的,因此,获得的多个排序模型的排序准确率也是不同的,此后,分别对多个排序模型进行测试,获得多个测试结果,以根据多个测试结果,从多个排序模型中选取出目标模型,便能够保证目标模型输出结果的准确性。
结合第一方面,本申请实施例还提供了第一方面的第一种可选的实施方式,通过搜索引擎,从文档数据库中,召回多个与训练问题集对应的候选文档集,包括:
确定出多个比例数值,多个比例数值中,每个比例数值不同,且每个比例数值为大于1的整数;
针对多个比例数值中的每个比例数值,针对训练问题集中的每个训练问题,通过搜索引擎,从文档数据库中,召回比例数值篇与训练问题对应的候选文档,组成一个候选文档集,以获得多个候选文档集。
结合第一方面的第一种可选的实施方式,本申请实施例还提供了第一方面的第二种可选的实施方式,通过搜索引擎,从文档数据库中,召回比例数值篇与训练问题对应的候选文档,组成一个候选文档集,包括:
通过关键词抽取算法,从训练问题中,获取至少一个关键词;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阳光保险集团股份有限公司,未经阳光保险集团股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010750541.1/2.html,转载请声明来源钻瓜专利网。