[发明专利]一种对短评论文本进行方面分类方法在审
申请号: | 201610056103.9 | 申请日: | 2016-01-27 |
公开(公告)号: | CN105740382A | 公开(公告)日: | 2016-07-06 |
发明(设计)人: | 温远;印鉴 | 申请(专利权)人: | 中山大学;广州中大南沙科技创新产业园有限公司;广州智海纵横信息科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 广州粤高专利商标代理有限公司 44102 | 代理人: | 林丽明 |
地址: | 510275 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 评论 文本 进行 方面 分类 方法 | ||
技术领域
本发明涉及自然语言处理领域,更具体地,涉及一种基于神经网络的对短评论文本进行方面分类方法。
背景技术
互联网已成为人们表达观点,获取信息不可或缺的一种途径。网上出现各种大量的短文本资源,如购物评论,微博消息等。通过对商品评论进行情感分析,进行商品市场反馈分析,对商家和消费者都有重要意义。然而一句话往往不只包含一种情感,评价对象经常会被细分为多种属性,传统的粗粒度的情感分析已不能满足需求,这就需要更细粒度的识别才能有效实现情感分析。在对评价方面这一粒度的情感分析中,主要包括方面分类和情感分析两部分,其中一个重要的任务就是对评价方面的分类,通过研究发现方面类别均由评论实体和实体属性两部分组成。例如:在餐馆的评论中,我们需要区分出食物的质量、食物的价格、餐馆的环境等等因素,其中,食物、餐馆为评论实体,质量、价格、环境为实体属性。然而,在面对海量的评论数据时,一方面,人工标注方面类别的方法会耗费大量的人力和时间。另一方面,现有的基于特征工程的方法随着情感力度的细化和分类类别的增加,有效性大大降低。
现有基于特征工程的技术实施分类的有效性有限,原因如下:
1、特征表示大多是基于基本的词性或统计特征,不能很好地体现高层语义关系;
2、需要设计大量的特征,实施起来比较繁琐。
因此,需要一种可以自动学习的,能够用于表达高层语义特征的方法进行方面监测的工作。
发明内容
本发明提供一种基于神经网络的对短评论文本进行方面分类方法,该方法设计简单、有效性较高。
为了达到上述技术效果,本发明的技术方案如下:
一种对短评论文本进行方面分类方法,包括以下步骤:
S1:对短评论文本集进行预处理,得到短评论文本集中各个词的词向量;
S2:利用短评论文本集中各个词的词向量来计算方面类别相关的标准词向量,并计算各个短评论文本的特征;
S3:计算各个短评论文本评论对象实体的特征;
S4:根据各个短评论文本的特征及其评论对象实体的特征来训练分类器来进行短评论文本方面分类。
进一步地,所述步骤S3中采用前馈型神经网络模型来计算各个短评论文本评论对象实体的特征。
进一步地,所述短评论文本包括餐馆、数码产品的评论数据集,所述短评论文本所属方面分类由评论对象实体和评论对象的属性构成。
进一步地,对短评论文本集进行预处理的过程包括对短评论文本的分词、去停词,并对不在词典中的词向量进行随机初始化。其中,词典词向量由开源项目word2vec以及领域相关的语料库训练得到。
进一步地,所述标准词向量为方面类别关键词的词向量平均值。
与现有技术相比,本发明技术方案的有益效果是:
本发明提出的是一个解决短文本方面分类的方法,其中分类结果由评论实体和实体属性组成,将评论对象实体的特征单独提取作为最终输入特征的一部分,有效的提升了分类的精确度,也更符合实际分类中的思想,使结果更具可解释性。
附图说明
图1是本发明分类方法流程图;
图2是基于关键字的评论文本特征生成过程示意图;
图3是自动提取实体特征示意图;
图4是最终的分类器模型示意图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;
对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
下面结合附图和实施例对本发明的技术方案做进一步的说明。
实施例1
一般认为分类类别包括评论实体和实体属性,对于每一条短评论,都可以同时属于多个类别。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中山大学;广州中大南沙科技创新产业园有限公司;广州智海纵横信息科技有限公司,未经中山大学;广州中大南沙科技创新产业园有限公司;广州智海纵横信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610056103.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种分类方法及装置
- 下一篇:一种在线Web新闻内容抽取系统