[发明专利]基于神经自回归分布估计的涉案新闻主题模型构建方法及装置有效
申请号: | 202010984648.2 | 申请日: | 2020-09-18 |
公开(公告)号: | CN112434212B | 公开(公告)日: | 2021-11-23 |
发明(设计)人: | 毛存礼;梁昊远;余正涛;郭军军;黄于欣;高盛祥 | 申请(专利权)人: | 昆明理工大学 |
主分类号: | G06F16/9535 | 分类号: | G06F16/9535;G06F16/951;G06F40/216;G06F40/284;G06F40/30;G06N3/04;G06N3/08 |
代理公司: | 昆明人从众知识产权代理有限公司 53204 | 代理人: | 何娇 |
地址: | 650093 云*** | 国省代码: | 云南;53 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 神经 回归 分布 估计 涉案 新闻 主题 模型 构建 方法 装置 | ||
1.基于神经自回归分布估计的涉案新闻主题模型构建方法,其特征在于:首先构建涉案新闻数据并预处理,得到案件要素库和涉案词向量;然后由iDocNADEe模型计算新闻和案件要素的双向隐状态;再用案件要素和新闻的双向隐状态构建注意力机制,对新闻隐状态加权;接下来利用神经自回归算法和案件要素加权的新闻隐状态计算案件要素指导的自回归条件概率,依据涉案新闻的自回归条件概率构建涉案主题模型,并利用涉案新闻主题模型进行涉案新闻检索;
利用词序列v、案件要素序列k以及iDocNADEe模型和双向语言模型的计算方式,结合作为涉案先验知识的涉案领域词向量计算涉案新闻的双向隐状态以及新闻中包含的案件要素的双向隐状态;并包括了新闻在位置i的前后向隐状态和新闻所包含的案件要素在位置i的前后向隐状态;利用平均池化操作和案件要素隐状态计算双向注意力向量作为新闻中所包含的案件要素信息;利用案件要素隐状态的双向注意力向量与涉案新闻的双向隐状态计算案件要素信息与新闻文本之间的双向相关度;利用案件要素与新闻文本的相关度构建基于案件要素的注意力机制,从而对新闻文本的隐状态进行案件要素加权,使其具有案件信息。
2.根据权利要求1所述的基于神经自回归分布估计的涉案新闻主题模型构建方法,其特征在于:所述构建涉案新闻数据并预处理,得到案件要素库和涉案词向量包括如下:
对涉案新闻和案件本体进行分析,根据其涉案人名、地名、事件描述以及案件触发词案件特征构建案件要素库作为模型的涉案外部知识;
利用裁判文书数据、涉案新闻数据以及word2vec算法预训练涉案领域的词向量作为模型的涉案先验知识。
3.根据权利要求1所述的基于神经自回归分布估计的涉案新闻主题模型构建方法,其特征在于:由iDocNADEe模型计算新闻和案件要素的双向隐状态具体包括:
不同于iDocNADEe的输入,将新闻分别表示为词序列v以及新闻中包含的案件要素序列k;
利用词序列v、案件要素序列k以及iDocNADEe模型和双向语言模型的计算方式,结合作为涉案先验知识的涉案领域词向量计算涉案新闻的双向隐状态以及新闻中包含的案件要素的双向隐状态;
其中,和分别代表了新闻在位置i的前后向隐状态,和分别代表了新闻所包含的案件要素在位置i的前后向隐状态,g(·)代表sigmoid激活函数,代表前后向偏置向量,W,分别代表参数矩阵和涉案领域词向量矩阵,H,V分别代表了主题数量和词表大小,分别代表新闻中第k个词在参数矩阵和涉案领域词向量矩阵中的向量表示,分别代表新闻中第j个案件要素在参数矩阵和涉案领域词向量矩阵中的向量表示,λ代表了平衡权重系数。
4.根据权利要求1所述的基于神经自回归分布估计的涉案新闻主题模型构建方法,其特征在于:用案件要素和新闻的双向隐状态构建注意力机制,对新闻隐状态加权的具体步骤如下:
A、利用平均池化操作和案件要素隐状态计算双向注意力向量作为新闻中所包含的案件要素信息:
其中,分别代表了前向注意力向量和后向注意力向量,n为案件要素的数量;
B、利用案件要素隐状态的双向注意力向量与涉案新闻的双向隐状态计算案件要素信息与新闻文本之间的双向相关度:
其中,分别代表了前向相关度和后向相关度,vi为上文信息,v>i为下文信息,k<i为上文中包含的案件要素,k>i为下文中包含的案件要素,相关度的计算函数为点乘运算:
C、利用案件要素与新闻文本的相关度构建基于案件要素的注意力机制,从而对新闻文本的隐状态进行案件要素加权,使其具有案件信息:
其中,分别代表了案件信息加权的新闻文本隐状态。
5.根据权利要求1所述的基于神经自回归分布估计的涉案新闻主题模型构建方法,其特征在于:利用神经自回归算法和案件要素加权的新闻隐状态计算案件要素指导的自回归条件概率为:
其中,w∈{1,...,V},分别代表前后向偏置向量,代表了连接隐藏层和输出层的权重矩阵。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于昆明理工大学,未经昆明理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010984648.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种复频超声振动加工装置
- 下一篇:一种手持式导线打圈钳