[发明专利]基于深度学习的文本情感分析方法和系统在审
申请号: | 201711417352.7 | 申请日: | 2017-12-25 |
公开(公告)号: | CN108108355A | 公开(公告)日: | 2018-06-01 |
发明(设计)人: | 王家彬;柳宜江 | 申请(专利权)人: | 北京牡丹电子集团有限责任公司数字电视技术中心 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30;G06N3/04;G06N3/08 |
代理公司: | 北京修典盛世知识产权代理事务所(特殊普通合伙) 11424 | 代理人: | 杨方成 |
地址: | 100191*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 预处理 情感分析 文本情感 文本数据 预设 文本 初始文本数据 待分类文本 分类结果 情感分类 人力成本 所属领域 特种工程 分类器 聚类 学习 标注 工作量 分析 规范化 | ||
本发明特别涉及一种基于深度学习的文本情感分析方法和系统。方法包括以下步骤:对初始文本数据进行规范化处理,生成预处理文本数据,并将预处理文本数据聚类到预设领域;在不同领域内由人工分别标注一部分数据,训练基于深度学习的情感分析模型并建立每个预设领域的专有深度;采用形成的分类器并结合专有深度对输入的待分类文本进行情感分类。本发明减少了人力成本,避免了特征工程对分类结果的影响,同时减少了特种工程带来的工作量。此外,将文本所属领域纳入考虑,提高了对文本进行情感分析的准确性。
技术领域
本发明涉及自然语言处理领域,尤其涉及一种基于深度学习的文本情感分析方法和系统。
背景技术
Web2.0时代,每一个网民都成了互联网的信息发布源。各种用途的信息发布平台应运而生,诸如FaceBook、校内网、新浪微博等,供用户发表、获取、分享各种信息。由于互联网用户基数大,每个信息发布平台信息发布平台平均每天产生的信息量也大,所以互联网每天产生的信息量也巨大。而情感分析又称情感挖掘、意见挖掘,是对文本进行处理、分析、归纳并推理,得出文本的情感色彩的过程,基于互联网每天产生的巨大信息量,对互联网数据进行挖掘和情感分析的难度也非常大。
在文本情感分析方面,外国学者主要是针对Twitter上的短文本信息作为语料进行分析。比如国外学者利用网站带情感标签的文本作为训练语料,采用文本抽象特征训练各种分类器进行主客观分类和情感极性分类。中文文本情感极性分析近来呈现高速发展的趋向,然而中文文本的复杂性比英文文本的复杂性要高得多,所以中文文本的分词质量往往对最后的分类结果影响很大。除此之外,由于中文的信息熵更大,中文文本内容丰富多彩,有很多网络词和新词加入其中,在研究工作中都是挑战。
就情感分析而言,有基于规则和基于学习的方法两种类别。基于规则的方法,一般由人工定义的规则库和深度组成,这种方法效果一般不错,但是人工工作量很大;基于学习的方法,大多是基于传统机器学习的方法如SVM、朴素贝叶斯等,依赖于特征工程,需要人工去寻找数据特征,特征工程的好坏直接影响最终分类的效果。
发明内容
为解决上述技术问题,本发明提供了一种基于深度学习的文本情感分析方法和系统。
第一方面,本发明实施例提供了一种基于深度学习的文本情感分析方法,包括以下步骤:
步骤1,采集用于训练的初始文本数据,并对所述初始文本数据进行规范化处理,生成预处理文本数据;
步骤2,采取聚类方法,将所述预处理文本数据聚类到对应的预设领域;
步骤3,针对不同预设领域,在每个预设领域内都由人工标注一部分所述预处理文本数据,使用所有的预处理文本数据作为初始训练语料训练出领域相关的第一分类器,同时采取降维方法降低标注的预处理文本数据的维度,以便得到每个预设领域的专有深度;
步骤4,使用训练好的第一分类器对未标注的预处理文本数据进行情感分类,得到各预设领域内的标注语料;
步骤5,使用各预设领域内的所述标注语料,并且以获得的所述专有深度作为特征信息,训练出领域相关的第二分类器;
步骤6,获取待分类文本,采取所述聚类方法将所述待分类文本划分到相应领域,再使用与该领域相关的第二分类器并结合获得的该领域的专有深度对所述待分类文本进行情感分析,生成情感分类结果并输出显示。
上述方案的有益效果在于:本发明的基于深度学习的文本情感分析方法通过对情感分析分领域进行处理,不断自动扩充不同领域对应的深度,同时使用文本领域分类器结合的方式对输入文本进行情感分析,将文本划分到对应领域后用与该领域有关的情感分类器进行情感分析。与现有技术相比,本发明具有以下优点和有益效果:
1、本发明可以自动建立每个领域的专有深度,避免了全由人工建立的成本问题;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京牡丹电子集团有限责任公司数字电视技术中心,未经北京牡丹电子集团有限责任公司数字电视技术中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711417352.7/2.html,转载请声明来源钻瓜专利网。