[发明专利]一种文档主题增强系统、文本情绪预测系统和方法有效

专利信息
申请号: 201911212020.4 申请日: 2019-11-29
公开(公告)号: CN110991190B 公开(公告)日: 2021-06-29
发明(设计)人: 王邦;汪畅 申请(专利权)人: 华中科技大学
主分类号: G06F40/30 分类号: G06F40/30;G06F40/258;G06F40/151;G06N3/08
代理公司: 华中科技大学专利中心 42201 代理人: 李智
地址: 430074 湖北*** 国省代码: 湖北;42
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 文档 主题 增强 系统 文本 情绪 预测 方法
【权利要求书】:

1.一种文档主题增强系统,其特征在于,所述文档主题增强系统包括:

主题获取模块,用于通过神经主题模型,获取文档的主题向量;

单词向量转化模块,用于将文档中各个单词转化为向量;

上下文向量转化模块,用于通过自注意力网络,将文档中各个单词的向量转化为各自的上下文向量;

文档向量获取模块,用于通过主题注意力机制,将文档中各个单词的上下文向量与该文档的主题向量融合,得到该文档的向量;

文档特征向量获取模块,用于通过融合门网络,将文档的向量与该文档的主题向量再次融合,得到该文档的特征向量。

2.如权利要求1所述的文档主题增强系统,其特征在于,所述神经主题模型采用基于变分自编码器的神经主题模型,分为编码器和解码器两个部分,所述编码器用于将文档的词袋向量转化为主题概率分布,所述解码器用于将主题概率分布转化为重构的文档词袋向量。

3.如权利要求2所述的文档主题增强系统,其特征在于,所述解码器包括依次串联的:1个主题嵌入层、1个主题单词嵌入层和1个softmax层;

所述主题嵌入层将文档的主题概率分布向量θ映射为主题向量vt=W(te)θ;

所述主题单词嵌入层和softmax层将文档主题向量vt映射为重构的文档词袋向量

其中,表示主题嵌入层的可学习参数,dt表示主题嵌入层输出的维度,K表示神经主题模型中的主题个数;表示主题单词嵌入层的可学习参数,V表示训练文档组成的语料库对应的字典长度。

4.如权利要求1所述的文档主题增强系统,其特征在于,所述自注意力网络采用多维自注意力网络,包括以下处理:

首先,各个单词的向量xi被1个全连接层转化到隐藏状态hi=tanh(W(h)xi+b(h));

其次,对于第i个单词,计算其与该文档中各个单词之间的对齐分数f(hi,hj)=σ(W(s)hi+U(s)hj+b(s));

然后,基于f(hi,hj)计算该文档中各个单词对于合成第i个单词的上下文向量的权重

最后,计算第i个单词的上下文向量

其中,表示全连接层可学习的参数;σ(·)表示ELU激活函数,表示多维自注意力机制的可学习参数;N代表文档中包含的单词总数;⊙表示向量元素对应相乘,dW表示单词的向量xi的维度,dt表示文档的主题向量的维度。

5.如权利要求1所述的文档主题增强系统,其特征在于,所述主题注意力机制包括以下处理:

首先,将待预测文档的主题向量vt转化为隐藏状态ht=W(t)vt+b(t)

其次,计算ht与该文档各个单词之间的对齐分数

然后,将f(zi,ht)归一化,得到各个单词对于合成文档向量的权重

最后,合成文档向量

其中,表示主题注意力机制的可学习参数,表示第i个单词的上下文向量,N代表文档中包含的单词总数,dt表示文档的主题向量的维度。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华中科技大学,未经华中科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201911212020.4/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top