[发明专利]一种文档主题增强系统、文本情绪预测系统和方法有效
申请号: | 201911212020.4 | 申请日: | 2019-11-29 |
公开(公告)号: | CN110991190B | 公开(公告)日: | 2021-06-29 |
发明(设计)人: | 王邦;汪畅 | 申请(专利权)人: | 华中科技大学 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F40/258;G06F40/151;G06N3/08 |
代理公司: | 华中科技大学专利中心 42201 | 代理人: | 李智 |
地址: | 430074 湖北*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文档 主题 增强 系统 文本 情绪 预测 方法 | ||
1.一种文档主题增强系统,其特征在于,所述文档主题增强系统包括:
主题获取模块,用于通过神经主题模型,获取文档的主题向量;
单词向量转化模块,用于将文档中各个单词转化为向量;
上下文向量转化模块,用于通过自注意力网络,将文档中各个单词的向量转化为各自的上下文向量;
文档向量获取模块,用于通过主题注意力机制,将文档中各个单词的上下文向量与该文档的主题向量融合,得到该文档的向量;
文档特征向量获取模块,用于通过融合门网络,将文档的向量与该文档的主题向量再次融合,得到该文档的特征向量。
2.如权利要求1所述的文档主题增强系统,其特征在于,所述神经主题模型采用基于变分自编码器的神经主题模型,分为编码器和解码器两个部分,所述编码器用于将文档的词袋向量转化为主题概率分布,所述解码器用于将主题概率分布转化为重构的文档词袋向量。
3.如权利要求2所述的文档主题增强系统,其特征在于,所述解码器包括依次串联的:1个主题嵌入层、1个主题单词嵌入层和1个softmax层;
所述主题嵌入层将文档的主题概率分布向量θ映射为主题向量vt=W(te)θ;
所述主题单词嵌入层和softmax层将文档主题向量vt映射为重构的文档词袋向量
其中,表示主题嵌入层的可学习参数,dt表示主题嵌入层输出的维度,K表示神经主题模型中的主题个数;表示主题单词嵌入层的可学习参数,V表示训练文档组成的语料库对应的字典长度。
4.如权利要求1所述的文档主题增强系统,其特征在于,所述自注意力网络采用多维自注意力网络,包括以下处理:
首先,各个单词的向量xi被1个全连接层转化到隐藏状态hi=tanh(W(h)xi+b(h));
其次,对于第i个单词,计算其与该文档中各个单词之间的对齐分数f(hi,hj)=σ(W(s)hi+U(s)hj+b(s));
然后,基于f(hi,hj)计算该文档中各个单词对于合成第i个单词的上下文向量的权重
最后,计算第i个单词的上下文向量
其中,表示全连接层可学习的参数;σ(·)表示ELU激活函数,表示多维自注意力机制的可学习参数;N代表文档中包含的单词总数;⊙表示向量元素对应相乘,dW表示单词的向量xi的维度,dt表示文档的主题向量的维度。
5.如权利要求1所述的文档主题增强系统,其特征在于,所述主题注意力机制包括以下处理:
首先,将待预测文档的主题向量vt转化为隐藏状态ht=W(t)vt+b(t);
其次,计算ht与该文档各个单词之间的对齐分数
然后,将f(zi,ht)归一化,得到各个单词对于合成文档向量的权重
最后,合成文档向量
其中,表示主题注意力机制的可学习参数,表示第i个单词的上下文向量,N代表文档中包含的单词总数,dt表示文档的主题向量的维度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华中科技大学,未经华中科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911212020.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种能够多方位照明的灯具
- 下一篇:一种自动调整元件之间间距的方法