[发明专利]一种跨领域情感分类方法和相关装置有效
申请号: | 201811406037.9 | 申请日: | 2018-11-23 |
公开(公告)号: | CN109492229B | 公开(公告)日: | 2020-10-27 |
发明(设计)人: | 陈恩红;刘淇;张凯;赵洪科;章和夫 | 申请(专利权)人: | 中国科学技术大学 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F16/35 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 王宝筠 |
地址: | 230026 安*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 领域 情感 分类 方法 相关 装置 | ||
1.一种跨领域情感分类方法,其特征在于,包括:
获取目标评论文本数据,并提取所述目标评论文本数据中的方面Aspect信息;其中所述目标评论文本数据无标签;
依据所述目标评论文本数据和所述Aspect信息,获得所述目标评论文本数据对应的评论单词序列和Aspect单词序列;
将所述评论单词序列和所述Aspect单词序列输入至预先训练好的模型中;所述模型是根据评论文本数据和与所述评论文本数据对应的Aspect信息,使用交互式注意力网络进行建模,并通过对有标签的评论文本数据和无标签的评论文本数据进行训练得到的,所述模型具备域分类的能力和情感分类的能力;
获取所述模型输出的用于表示所述目标评论文本数据的情感类别的结果;
所述模型采用如下方法训练得到:
分别从源域和目标域中获取多个评论文本数据,将所获取的多个评论文本数据作为待训练的多个样本评论文本数据,并分别提取各个评论文本数据中的Aspect信息;其中Aspect信息与评论文本数据一一对应,所述源域中的部分评论文本数据有标签,部分评论文本数据无标签,所述目标域中的评论文本数据无标签;
创建从源域到目标域的训练任务,所述训练任务包含目标样本评论文本数据,所述目标样本评论文本数据包括所述源域中有标签的样本评论文本数据、所述源域中无标签的样本评论文本数据和所述目标域中无标签的样本评论文本数据;
采用词嵌入方法,获得所述目标样本评论文本数据对应的评论文本的语义向量表征和Aspect单词序列的向量表征;
将所述评论文本的语义向量表征通过Bi-LSTM模型的学习,得到评论文本的隐状态表示,将所述Aspect单词序列的向量表征通过所述Bi-LSTM模型的学习,得到Aspect单词序列的隐状态表示;
分别对所述评论文本的隐状态表示和所述Aspect单词序列的隐状态表示进行池化处理,得到评论文本隐状态池化后的向量表示和Aspect单词序列隐状态池化后的向量表示;
依据所述评论文本的隐状态表示和所述Aspect单词序列隐状态池化后的向量表示,得到所述目标样本评论文本数据的最终表示;
依据所述Aspect单词序列的隐状态表示和所述评论文本隐状态池化后的向量表示,得到所述Aspect信息的最终表示;
利用公式对所述目标样本评论文本数据的最终表示进行领域分类的训练,其中
利用公式对所述Aspect信息的最终表示进行情感分类的训练;
其中,Ar表示为Aspect信息,Sr表示为目标样本评论文本数据;
Wd表示权重矩阵;
表示梯度反转层GRL后的目标样本评论文本数据;
表示偏置项;
Ws表示权重矩阵;
表示偏置项;
用于表征梯度反转层GRL后得到作为softmax()的输入得到域标签分类:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学技术大学,未经中国科学技术大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811406037.9/1.html,转载请声明来源钻瓜专利网。