[发明专利]一种文本标签标注设备、方法和计算设备有效
申请号: | 201810129331.3 | 申请日: | 2018-02-08 |
公开(公告)号: | CN108334499B | 公开(公告)日: | 2022-03-18 |
发明(设计)人: | 郭龙;张东祥;陈李江 | 申请(专利权)人: | 海南云江科技有限公司 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F40/289;G06N3/04 |
代理公司: | 北京思睿峰知识产权代理有限公司 11396 | 代理人: | 谢建云;赵爱军 |
地址: | 571924 海南省老*** | 国省代码: | 海南;46 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 标签 标注 设备 方法 计算 | ||
1.一种文本标签标注设备,用于对文本标签进行标注,所述设备包括:
输入模块,适于接收文本输入,并将该文本转换输出为向量矩阵;
卷积神经网络模块,与所述输入模块连接,包括:
第一输入层,适于接收所述输入模块所输出的向量矩阵;
多个卷积层,分别与所述第一输入层并行连接,适于对该向量矩阵进行卷积操作,得到多个特征向量;
第一池化层,与所述多个卷积层连接,适于对所述多个特征向量进行池化操作,并输出池化结果;
第一全连接层,与所述第一池化层连接,适于对所述池化结果进行降维操作,得到所述卷积神经网络模块的输出,该输出代表文本的局部语义特征;
循环神经网络模块,与所述输入模块连接,包括:
第二输入层,适于接收所述输入模块所输出的向量矩阵;
隐藏层,与所述第二输入层连接,适于将文本中每个单字的词向量表示为该词向量与前向后向上下文向量连接起来的新形式向量;其中,所述隐藏层采用双向LSTM长短时记忆网络或双向GRU隐藏单元,采用双向LSTM得到的当前单字的新形式向量xi为:
xi=[cl(wi);e(wi);cr(wi)]
cl(wi)=f(W(l)cl(wi-1)+W(sl)e(wi-1))
cr(wi)=f(W(r)cr(wi+1)+W(sr)e(wi+1))
其中,cl(wi)和cr(wi)分别代表当前LSTM单元的输出,cl(wi-1)和cr(wi+1)分别代表前一个和后一个LSTM单元的输出,e(wi)代表当前单字的词嵌入向量,e(wi-1)和e(wi+1)分别代表前一个和后一个单字的词嵌入向量,W(l)和W(r)分别代表前一个和后一个LSTM单元的权重,W(sl)和W(sr)分别代表前一个和后一个词嵌入向量的权重,f代表激活函数;
第二池化层,与所述隐藏层连接,适于对所有单字的新形式向量进行池化操作,并输出池化结果;
第二全连接层,与所述第二池化层连接,适于对所述池化结果进行降维操作,得到所述循环神经网络模块的输出,该输出代表文本的长距离语义特征;
注意力模型模块,与所述卷积神经网络模块和循环神经网络模块连接,适于根据局部语义特征和长距离语义特征输出文本中各单字的权重;以及
输出模块,与所述注意力模型模块连接,适于接收所述文本中各单字的权重输出文本标签及各标签的概率。
2.如权利要求1所述的文本标签标注设备,其中,
所述多个卷积层适于同时对向量矩阵进行卷积操作,每个卷积层得到一个特征向量,每个特征向量包含的数值类型为浮点小数;
所述第一池化层适于分别提取每个特征向量中的最大浮点小数,组成一个多维向量。
3.如权利要求1所述的文本标签标注设备,其中,
所述第二池化层适于保留所有词向量相应列中的最大值,以得到固定长度的一维向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于海南云江科技有限公司,未经海南云江科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810129331.3/1.html,转载请声明来源钻瓜专利网。