[发明专利]层次胶囊与多视图信息融合的答案句子选择方法与装置在审

专利信息
申请号: 202211113668.8 申请日: 2022-09-14
公开(公告)号: CN115455162A 公开(公告)日: 2022-12-09
发明(设计)人: 杨鹏;李冰;易梦;孙元康;吉顺航 申请(专利权)人: 东南大学
主分类号: G06F16/332 分类号: G06F16/332;G06F16/35;G06F16/33;G06F40/35;G06K9/62;G06N3/04;G06N3/08
代理公司: 南京众联专利代理有限公司 32206 代理人: 叶涓涓
地址: 211189 *** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 层次 胶囊 视图 信息 融合 答案 句子 选择 方法 装置
【权利要求书】:

1.层次胶囊与多视图信息融合的答案句子选择方法,其特征在于,包括以下步骤:

步骤1:问答对文本采集

通过互联网采集包含多个答案的问题文本与答案文本,积累样本数据集;数据集中的每条样本包括网络文本中的问题和答案;分割数据集形成训练集、验证集和测试集;

步骤2:数据预处理

对数据集中每一个样本进行预处理,并构造三元组数据,一个三元组数据包括问题文本,答案文本和答案文本所对应的标签;

步骤3:模型训练

首先将问题和答案进行分句处理,并利用BERT双向语言模型生成上下文嵌入向量,其中BERT模型使用大规模答案选择语料库ASNQ进行微调优化;然后在编码层,利用BERT编码器来编码双向上下文语义信息,以进一步获得词与词之间的信息依赖;接着在层次胶囊网络HCN中,通过信息聚合胶囊网络InforCaps、句段聚合胶囊网络SegCaps和类别聚合胶囊网络CateCaps共享学习同一类特征参数;信息聚合胶囊层的动态路由机制聚合每个词的高维稀疏语义,以获得词之间的初步聚类特征;在句段聚合胶囊层对聚类后的丰富词汇特征继续进行二次聚类,逐渐减少胶囊的数量,得到一个较短的句子长度,但获得丰富的信息,最后将胶囊层输入到类别胶囊层进行分类,由此保证特定对象的聚类性能;同时,在多视图信息融合层,第一步计算整个BERT编码器中所有编码中间层输出的权重并进行归一化处理,第二步利用该权重对各编码层输出的信息进行加权融合得到最终的信息表,第三步采用激活函数Relu对多视图信息融合层得到的加权信息表示进行处理并将其作为“纠正信息”添加到层次胶囊网络的最终语义表示中进行分类,由此能够增强编码器中间层信息的学习;最后,输出层由层次胶囊网络层和多视图信息融合层的输出联合组成,使用边际损失和交叉熵损失的联合损失函数来训练所述模型;

步骤4:模型测试与答案句子选择

根据训练所得到的最佳模型,对包含多个答案的问题进行答案句子选择。

2.根据权利要求1所述的层次胶囊与多视图信息融合的答案句子选择方法,其特征在于,所述步骤1中,获取数据集时首先从社交网络平台中抓取大量的包含多个答案的问题文本与对应的答案文本,并根据人工规则选择问题的标准答案;分割数据集时训练集、验证集和测试集比例为8∶1∶1。

3.根据权利要求1所述的层次胶囊与多视图信息融合的答案句子选择方法,其特征在于,所述步骤2中预处理的过程为:对数据进行数据清洗,保留只包含问题与答案以及答案标签的数据,利用nltk库对问题和答案进行分句处理,并剔除只包含两句以下的数据组。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东南大学,未经东南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202211113668.8/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top