[发明专利]基于混合专家模型的复杂度可控的多样化问题生成方法在审

申请号：	202110099300.X	申请日：	2021-01-25
公开（公告）号：	CN112668344A	公开（公告）日：	2021-04-16
发明（设计）人：	毕胜;程茜雅;漆桂林	申请（专利权）人：	东南大学
主分类号：	G06F40/35	分类号：	G06F40/35;G06F40/211;G06N3/04;G06N3/08
代理公司：	南京众联专利代理有限公司 32206	代理人：	张天哲
地址：	210096 ***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于混合专家模型复杂度可控多样化问题生成方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于混合专家模型的复杂度可控的多样化问题生成方法，其特征在于，该方法包括如下步骤：

1)挖掘问答数据集特征，提出一种自适应的问题复杂度的衡量方法；

2)使用该问题复杂度衡量方法对现有数据集中的数据进行复杂度标注，并划分为训练集、验证集和测试集；

3)使用双向LSTM网络对给定文本和答案进行编码；

4)使用LSTM网络对编码结果进行解码，生成问题；

5)在解码过程中使用隐向量建模不同复杂度的问题模板，从而指导满足给定复杂度的问题生成；

6)使用混合专家模型选择不同的文本内容，从而生成不同的问题，提升问题生成的多样性。

2.根据权利要求书1所述的基于混合专家模型的复杂度可控的多样化问题生成方法，其特征在于，所述步骤1)中，

从问题、文本以及两者间的交互这三个角度提出了五种复杂度影响因素，并设计了一种自适应的问题复杂度的衡量方法，这五种因素包括：

1)问题中的从句个数从句个数越多，问题越复杂；

2)问题中的修饰定语数量定语越多，问题越难回答；

3)文本中句子的关联程度关联越高，问题越易回答；使用文本中句子的主题分布的相似度来表示句子关联程度，首先训练主题模型，计算每个句子的主题分布，然后使用Kullback-Leibler散度衡量这些主题分布的相似性，计算方式如下：

其中，t_i和t_j分别表示文本中第i个和第j个句子的主题分布，N是文本中的句子个数，最终，句子主题分布的相似度越高，句子关联性就越高，问题就越简单；

4)问题中的实体出现在文本中的频率出现越高，问题越简单；利用spaCy工具识别问题中的实体，并采用下列公式计算问题中的实体出现在文本中的频率，为了确保的值与复杂度成正相关，使用倒数运算；

5)问题中的实体与答案span在文本中的平均距离越小，越易找到答案；计算问题中的实体与答案span在文本中的平均距离作为复杂度影响因子，距离越大，问题就越复杂；

对影响因子的值采用了归一化的计算方法，消除过大值产生的影响，最终每个问题复杂度的得分cpx的计算公式如下：

其中，ω_i是第i个影响因子的权重。

3.根据权利要求2所述的基于混合专家模型的复杂度可控的多样化问题生成方法，其特征在于，所述步骤5)中，

使用隐向量π∈{1,…,n_π}作为记忆模块来建模问题的模板结构，每当选中一个π时，其对应的模板就会被用来指导问题生成；使用了两个隐向量π^simple和π^complex，分别根据不同复杂度的问题选择对应的模板。

4.根据权利要求2所述的基于混合专家模型的复杂度可控的多样化问题生成方法，其特征在于，所述步骤6)中，

使用混合专家模型，选择不同的模板进而建模不同的文本内容，最终生成不同的问题，提升问题生成的多样性，具体来说，定义了隐向量z∈{1,…,n_z}表示一系列专家，其中每个专家关注不同的问题模板。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于东南大学，未经东南大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110099300.X/1.html，转载请声明来源钻瓜专利网。

专利分类

专利文献下载