[发明专利]一种基于教学机制的情感分析方法有效
申请号: | 202110612776.9 | 申请日: | 2021-06-02 |
公开(公告)号: | CN113255796B | 公开(公告)日: | 2022-11-04 |
发明(设计)人: | 施重阳;姜欣雨;冯超群 | 申请(专利权)人: | 北京理工大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/04;G06N3/08;G06F40/284;G06F40/211 |
代理公司: | 北京正阳理工知识产权代理事务所(普通合伙) 11639 | 代理人: | 王松 |
地址: | 100081 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 教学 机制 情感 分析 方法 | ||
本发明涉及一种基于教学机制的情感分析方法,属于计算机自然语言处理技术领域。本方法提出了一种基于类别标签的分层教学网络,由教师网络和学生网络组成。教师网络以类别标签为输入,提取所要预测的类别高度相关的信息,学生网络从教师网络中学习类别标签的特性,并依此建立“软标签”以期复现真实类别标签的能力,提取与教师网络相似的与类别高度相关的信息,这些信息被用于做文本分类。通过构建两个不同的学生网络来建模“软标签”,即用户偏好学生网络和产品印象学生网络,并根据两个学生网络的不同特点设计了两个不同的教师网络,可以在低复杂度下取得良好的表现。
技术领域
本发明涉及一种基于教学机制的情感分析方法,属于计算机自然语言处理(NLP)技术领域。
背景技术
情感分析旨在理解自然文本中所包含的情感,是人们的观点、情绪、评估对诸如产品、服务、组织等实体的态度,是计算机自然语言处理领域中的一项关键任务,在数据挖掘、Web挖掘、文本挖掘和信息检索方面有广泛的研究。
大多数研究者将情感分析视为一个分类任务,即,将文本对应的情感极性视为类别,并使用文本特征训练一个分类器将文本进行分类。目前,基于神经网络的情感分析方法由于其高效性,成为当前的主流方法。此类方法大多是将单词嵌入到低维向量中,再将这些向量用作神经网络的初始输入。随后,使用精心设计的网络对文本进行编码,以获得文本特征向量。该向量进一步用于分析文本中包含的信息,进而预测其所属的类别。
近年来,越来越多的研究者致力于设计更高效的神经网络模型。然而,大多数现有的方法忽略了类别标签,尽管它与要预测的文本类别具有最高的相关性。这些方法大多将类别标签仅仅作为目标来计算损失,没有开发标签信息其他方面的能力,从而导致标签信息对其他层(如注意力层)的影响很小甚至可以忽略不计,进而导致重要信息定位有误。
重要信息定位有误,最常见的是注意力机制在处理文本的过程中会选择性地挑选相对重要的信息,例如,挑选一个句子中重要的词汇,舍弃句子中相对不重要的词汇。这样的挑选机制固然可以让模型抓住文本中的重要信息,但同时也会导致以下问题:
(1)有效信息被忽视
现有方法大多使用上下文、用户、产品信息等挑选相对重要的词汇,但是,这样的方式所引入的词汇皆为和用户、产品信息相关度较高的词汇,而并不能保证所挑选的词汇和所要预测的类别高度相关,因此与所要预测的类别相关度更高的信息很可能被忽视,从而限制模型表现。
(2)相对不重要的信息被引入
使用上下文、用户、产品信息等挑选的词汇,不能保证和所要预测的类别高度相关,因此,很可能引入和类别相关程度较低的词汇,这些冗余信息会干扰模型理解文本。
一些研究者将用户评论文本视为一整个句子,并应用句子层级文本分类方法分析文档的类别。例如,Taboada等人提出了一种基于词典的文本情感提取方法,该方法使用带有语义倾向(极性和强度)注释的单词词典分析文本所包含的情感;Tang等人引入CNN(卷积神经网络,Convolutional Neural Networks)来编码文本,并通过引入用户、文本信息来丰富文档表示。然而一般来说,文档通常包含多个句子,因此简单将文档视为一个长句子是不合适的,这样会使得句子间的界限更加不明确,进而失去了句子间的信息。因此,Yang等人提出了层次神经网络模型,即神经网络包括词层级和句子层级两个不同层级,在词层级通过整合所有词信息获取句子向量表示,在句子层级通过整合所有句子信息获取文档向量表示,这样的层次结构相比于将文档视为一个长句子的方法在结果上有着很大的提升;Ghosh等人提出了一种基于CNN和LSTM(长短时记忆神经网络,Long Short-Term Memory)的深层情感表达模型,其中,CNN用于获取句子表征;LSTM对句子语义进行编码,获取文档向量表征;Pu等人考虑到文档通常由不同的观点句组成,且这些观点句针对不同的方面,具有不同的情感,提出利用多个特征来识别候选的总体观点句,然后利用支持向量机对总体观点句进行编码,实现文档级文本分类。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学,未经北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110612776.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种低空助跑靴式飞行器
- 下一篇:网络空间发现方法、装置、电子设备及存储介质