[发明专利]多视角集成学习的案件与新闻相关性分析方法在审
申请号: | 202111078776.1 | 申请日: | 2021-09-15 |
公开(公告)号: | CN113901990A | 公开(公告)日: | 2022-01-07 |
发明(设计)人: | 余正涛;汪翠;黄于欣;毛存礼;张玉 | 申请(专利权)人: | 昆明理工大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N20/20;G06F40/289;G06N3/04;G06N3/08 |
代理公司: | 昆明人从众知识产权代理有限公司 53204 | 代理人: | 何娇 |
地址: | 650093 云*** | 国省代码: | 云南;53 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 视角 集成 学习 案件 新闻 相关性 分析 方法 | ||
本发明涉及多视角集成学习的案件与新闻相关性分析方法,属于自然语言处理技术领域。本发明包括步骤:以孪生网络为基础框架,并结合CNN网络、Transformer编码网络以及主题模型来实现局部信息、结构信息以及主题信息的特征抽取,考虑到案件要素蕴含案件的关键语义信息,将案件要素用于指导三个预训练基学习器获取指向性信息,再通过多头自注意力机制构建权重学习器,结合三种指向性信息并计算曼哈顿距离,最终获取到更为均衡合理的相似性关系。实验结果表明本发明多视角集成的方法相比基于语义相似度的方法F1值提升了2.5%。
技术领域
本发明涉及多视角集成学习的案件与新闻相关性分析方法,属于自然语言处理技术领域。
背景技术
近年来,深度学习在文本相似度计算中的应用备受关注,常见方法大体可分为三类:表示型网络、交互型网络、预训练语言模型。其中,表示型网络的代表作包括孪生网络框架(Siamese Network),是由一组具有相同参数的网络作为基础构成的神经网络。交互型网络,代表作如ESIM,该框架主要特点是能够捕获两个句子之间更多的交互特征。但是,该框架捕获交互信息时的匹配操作往往需要耗费部分时间。此外近几年兴起的预训练语言模型也取得了优越的效果,代表作如BERT、RoBERTa等。BERT是上下文表示学习的最新进展中的关键创新之一。BERT采用了一种微调方法,几乎不需要为每个最终任务使用特定的体系结构,在许多NLP任务中均达到了最先进的性能。
由以上分析可知,案件和新闻之间的文本内容差异过大的特点,导致需要使用多种视角共同建模其相似性。而集成学习可以组合多个不同的个体学习器以获取更好的结果,且异构个体学习器可以代表多种相似角度,可以很好适用于案件与新闻相关性分析。因此,本发明借鉴前人工作,使用集成学习思想,选取三种个体学习器代表三种不同的视角,以此来对案件和新闻的相似性问题进行深入探究。
发明内容
本发明提供了多视角集成学习的案件与新闻相关性分析方法,本发明用于提高案件与新闻相关性分析的准确率;本发明使用孪生网络框架为基础,遵循集成学习的思想,选取了三种不同特点的网络结构代表三种视角,构建了局部信息学习器、结构信息学习器以及主题信息学习器,使它们在获取语义特征的同时,保持侧重不同。对三种个体学习器分别进行预训练,使得每种学习器都得到最好的结果。最后由多头注意力机制构建的权重学习器对三种信息进行结合,获取最终的相似性度量。
本发明的技术方案是:多视角集成学习的案件与新闻相关性分析方法,所述方法的具体步骤如下:
Step1、使用CNN网络构建局部信息学习器,用于获取案件和新闻之间的局部信息相似性;
Step2、使用Transformer网络构建局部信息学习器,用于获取案件和新闻之间的结构信息相似性;
Step3、使用预训练主题模型构建局部信息学习器,用于获取案件和新闻之间的主题信息相似性;
Step4、使用多头注意力机制构建权重学习器,用于从多个角度共同评判相似程度。
作为本发明的优选方案,所述步骤Step1的具体步骤为:
Step1.1、使用中文微博词向量来获得标题中每个词的嵌入表征,引入案件要素作为新闻的外部指导,得到加权后的案件和新闻的特征向量;
Step1.2、使用CNN网络对案件和新闻的特征向量进行局部信息抽取,通过池化操作后,对CNN的输出通道使用自注意力机制进行权重学习,用于提高重要局部信息的权重。
Step1.3、将抽取到的案件和新闻的局部信息编码向量进行曼哈顿距离计算得到最终的相似关系。
作为本发明的优选方案,所述步骤Step2的具体步骤:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于昆明理工大学,未经昆明理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111078776.1/2.html,转载请声明来源钻瓜专利网。