[发明专利]基于深度学习的文本情感分析方法和系统在审
申请号: | 201711417352.7 | 申请日: | 2017-12-25 |
公开(公告)号: | CN108108355A | 公开(公告)日: | 2018-06-01 |
发明(设计)人: | 王家彬;柳宜江 | 申请(专利权)人: | 北京牡丹电子集团有限责任公司数字电视技术中心 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30;G06N3/04;G06N3/08 |
代理公司: | 北京修典盛世知识产权代理事务所(特殊普通合伙) 11424 | 代理人: | 杨方成 |
地址: | 100191*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 预处理 情感分析 文本情感 文本数据 预设 文本 初始文本数据 待分类文本 分类结果 情感分类 人力成本 所属领域 特种工程 分类器 聚类 学习 标注 工作量 分析 规范化 | ||
1.一种基于深度学习的文本情感分析方法,其特征在于,包括以下步骤:
步骤1,采集用于训练的初始文本数据,并对所述初始文本数据进行规范化处理,生成预处理文本数据;
步骤2,采取聚类方法,将所述预处理文本数据聚类到对应的预设领域;
步骤3,针对不同预设领域,在每个预设领域内都由人工标注一部分所述预处理文本数据,使用所有的预处理文本数据作为初始训练语料训练出领域相关的第一分类器,同时采取降维方法降低标注的预处理文本数据的维度,以便得到每个预设领域的专有深度;
步骤4,使用训练好的第一分类器对未标注的预处理文本数据进行情感分类,得到各预设领域内的标注语料;
步骤5,使用各预设领域内的所述标注语料,并且以获得的所述专有深度作为特征信息,训练出领域相关的第二分类器;
步骤6,获取待分类文本,采取所述聚类方法将所述待分类文本划分到相应领域,再使用与该领域相关的第二分类器并结合获得的该领域的专有深度对所述待分类文本进行情感分析,生成情感分类结果并输出显示。
2.根据权利要求1所述的基于深度学习的文本情感分析方法,其特征在于,还包括步骤7,具体为:分析所述待分类文本的情感分类结果是否正确,若不正确,则将所述待分类文本作为所述初始文本数据,并重复步骤1~步骤6,根据所述待分类文本对相应领域的所述第一分类器和所述第二分类器进行更新。
3.根据权利要求1或2所述的基于深度学习的文本情感分析方法,其特征在于,所述步骤2包括使用所述预处理文本数据并结合所述初始文本数据的栏目信息来训练出文本领域分类器,以将所述预处理文本数据聚类到对应的预设领域。
4.根据权利要求3所述的基于深度学习的文本情感分析方法,其特征在于,所述步骤2具体包括以下步骤:
删除所述预处理文本数据中所有出现次数小于10次的低频词语,其中对于单个词语,其在所有文本中出现的次数最少为10次,否则视为低频词;
对每个文本中的句子按照其长度排序,选取句子长度排在前7的句子,舍弃未被选中的句子;
在删除了低频词后,如果文本中的某个句子包含的词语数量超过了100个,将多余的词语删除;
使用100×300的嵌入层将所述预处理文本数据中的每个句子转换成二维向量;
将得到的向量通过依次由卷积层、池化层、全连接层和softmax层组成的神经网络,并使用所述栏目信息来训练该神经网络,以得到所述文本领域分类器。
5.根据权利要求1或2所述的基于深度学习的文本情感分析方法,其特征在于,所述步骤3具体包括以下步骤:
删除所述预处理文本数据中所有出现次数小于10次的低频词语,其中对于单个词语,其在所有文本中出现的次数最少为10次,否则视为低频词;
对每个文本中的句子按照其长度排序,选取句子长度排在前7的句子,舍弃未被选中的句子;
在删除了低频词后,如果文本中的某个句子包含的词语数量超过了100个,将多余的词语删除;
使用递归自编码器将所述预处理文本数据转化为100维向量表示;
对转化后的数据进行主成分分析降维操作,得到每个预设领域的专有深度;
根据转化后的数据建立表示文本特征的矩阵,将其作为基于递归自编码的情感极性转移模型的输入;
基于所述输入,使用LBFGS算法多次迭代生成最终的模型,以得到领域相关的所述第一分类器,其中该模型可对低维实数向量表示的文本进行情感分类并输出其情感极性。
6.根据权利要求1或2所述的基于深度学习的文本情感分析方法,其特征在于,所述步骤5具体为:
对每个预设领域内的标注语料进行分词处理得到文本的分布式表示;
将处理后的语料通过卷积层获得特征图;
在所述特征图上提取窗口特征序列,与步骤3中获得的与该预设领域有关的专有深度串接;
在所述特征序列上使用门控循环单元隐层获得文本的高层表示;
对获得的高层表示使用softmax层进行分类;
使用作为训练数据的所述标注语料的标签,进行误差的反向传播,训练堆叠式卷积循环神经网络的参数,以得到该预设领域相应的第二分类器。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京牡丹电子集团有限责任公司数字电视技术中心,未经北京牡丹电子集团有限责任公司数字电视技术中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711417352.7/1.html,转载请声明来源钻瓜专利网。