[发明专利]多视角集成学习的案件与新闻相关性分析方法在审
申请号: | 202111078776.1 | 申请日: | 2021-09-15 |
公开(公告)号: | CN113901990A | 公开(公告)日: | 2022-01-07 |
发明(设计)人: | 余正涛;汪翠;黄于欣;毛存礼;张玉 | 申请(专利权)人: | 昆明理工大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N20/20;G06F40/289;G06N3/04;G06N3/08 |
代理公司: | 昆明人从众知识产权代理有限公司 53204 | 代理人: | 何娇 |
地址: | 650093 云*** | 国省代码: | 云南;53 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 视角 集成 学习 案件 新闻 相关性 分析 方法 | ||
1.多视角集成学习的案件与新闻相关性分析方法,其特征在于:所述方法的具体步骤如下:
Step1、使用CNN网络构建局部信息学习器,用于获取案件和新闻之间的局部信息相似性;
Step2、使用Transformer网络构建局部信息学习器,用于获取案件和新闻之间的结构信息相似性;
Step3、使用预训练主题模型构建局部信息学习器,用于获取案件和新闻之间的主题信息相似性;
Step4、使用多头注意力机制构建权重学习器,用于从多个角度共同评判相似程度。
2.根据权利要求1所述的多视角集成学习的案件与新闻相关性分析方法,其特征在于:所述步骤Step1的具体步骤为:
Step1.1、使用中文微博词向量来获得标题中每个词的嵌入表征,引入案件要素作为新闻的外部指导,得到加权后的案件和新闻的特征向量;
Step1.2、使用CNN网络对案件和新闻的特征向量进行局部信息抽取,通过池化操作后,对CNN的输出通道使用自注意力机制进行权重学习,用于提高重要局部信息的权重;
Step1.3、将抽取到的案件和新闻的局部信息进行曼哈顿距离计算得到最终的相似关系。
3.根据权利要求1所述的多视角集成学习的案件与新闻相关性分析方法,其特征在于:所述步骤Step2的具体步骤:
Step2.1、使用中文微博词向量来获得标题中每个词的嵌入表征,引入案件要素作为新闻的外部指导,并在其中加入案件和新闻文本的绝对位置编码信息,得到加权后的案件和新闻的特征向量;
Step2.2、使用Transformer网络层对包含位置编码信息的案件和新闻特征向量进行结构信息抽取;
Step2.3、将抽取到的案件和新闻的结构信息编码向量进行曼哈顿距离计算得到最终的相似关系。
4.根据权利要求1所述的多视角集成学习的案件与新闻相关性分析方法,其特征在于:所述步骤Step3的具体步骤为:
Step3.1、使用变分自编码器VAE对案件和新闻的全部数据进行无监督预训练,得到无监督主题模型;
Step3.2、使用中文微博词向量来获得标题中每个词的嵌入表征,引入案件要素作为新闻的外部指导,并在其中加入由主题模型抽取到的案件和新闻的主题向量,得到加权后的案件和新闻的特征向量;
Step3.3、使用双向LSTM网络层对包含主题信息的案件和新闻特征向量进行主题信息抽取;
Step3.4、将抽取到的案件和新闻的主题信息编码向量进行曼哈顿距离计算得到最终的相似关系。
5.根据权利要求1所述的多视角集成学习的案件与新闻相关性分析方法,其特征在于:所述步骤Step4中包括:
使用个体学习器学习单个视角并将预训练效果达到最优后,联合Step1、Step2、Step3分别得到的三种表征进行权重学习,使用多头自注意力机制来获取不同角度下的权重信息后再通过前馈神经网络,最后进行距离计算,得到最终相似度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于昆明理工大学,未经昆明理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111078776.1/1.html,转载请声明来源钻瓜专利网。