[发明专利]阅读理解候选选项个数不确定时的训练方法、装置及系统在审

申请号：	202111502135.4	申请日：	2021-12-09
公开（公告）号：	CN114138964A	公开（公告）日：	2022-03-04
发明（设计）人：	丘德来;丁颖;张瀚之;刘升平;梁家恩	申请（专利权）人：	云知声智能科技股份有限公司
主分类号：	G06F16/332	分类号：	G06F16/332;G06F40/126;G06F40/30;G06N3/08
代理公司：	暂无信息	代理人：	暂无信息
地址：	100096 北京市海***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	阅读理解候选选项个数不确定时训练方法装置系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提供了阅读理解候选选项个数不确定时的训练方法、装置及系统，该方法包括：步骤S10、任务分组：将至少一篇阅读理解样本作为训练集，并将所述训练集划分为至少一个子任务，将答案候选选项个数相同的问题划分到同一子任务中，组成新训练集；步骤S20、多任务采样：从新训练集中选取任一子任务中的一批次阅读理解的问题样本，作为模型训练的输入数据；步骤S30、模型训练：对输入的输入数据进行多次训练，直至模型收敛。本发明的技术方案，采用了多任务视角在一个模型中解决了选择题阅读理解任务中选项个数不同的问题，并可以将多个模型变为单个模型，且不同选项个数的数据可以在一个模型中互相学习，从而降低整体数据的标注量。

技术领域

本发明书一个或多个实施例涉及数据处理技术领域，尤其涉及一种阅读理解候选选项个数不确定时的训练方法、装置及系统。

背景技术

本部分旨在为权利要求书中陈述的本发明的实施方式提供背景或上下文。此处的描述可包括可以探究的概念，但不一定是之前已经想到或者已经探究的概念。因此，除非在此指出，否则在本部分中描述的内容对于本申请的说明书和权利要求书而言不是现有技术，并且并不因为包括在本部分中就承认是现有技术。

在医疗场景下，我们需要根据特定文书回答不同问题，而不同问题对应着若干个候选选项，这是一种典型的选择题阅读理解任务。在该任务中，我们需要根据一篇参考文章和一个相关问题，从若干个选项中，选择一个作为正确答案，如图1所示。

上述情况是，现有的选择题类型阅读理解模型能够处理固定选项个数的问题。而在实际应用场景中，一个问题的选项个数可能不一样，则原有模型只能在选项个数相同的一类数据上训练。如图2所示，在第一个问题训练的模型，无法将第二个问题加入训练。

基于上述问题，我们亟需一种新的训练方式，用于解决选项个数不一致场景下的选择题型阅读理解模型训练。

发明内容

本说明书一个或多个实施例描述了一种基于多任务的医疗阅读理解候选选项个数不确定时的训练方法、装置及系统，解决医疗阅读理解场景下候选选项个数不确定时的阅读理解模型训练。

本说明书一个或多个实施例提供的技术方案如下：

第一方面，本发明提供了一种阅读理解候选选项个数不确定时的训练方法，所述方法包括：

将至少一篇阅读理解样本作为训练集，并将所述训练集划分为至少一个子任务，将答案候选选项个数相同的问题划分到同一子任务中，组成新训练集；