[发明专利]一种融合多特征的双向循环神经网络细粒度意见挖掘方法有效
申请号: | 201710239843.0 | 申请日: | 2017-04-13 |
公开(公告)号: | CN107168945B | 公开(公告)日: | 2020-07-14 |
发明(设计)人: | 郝志峰;黄浩;蔡瑞初;温雯;王丽娟;蔡晓凤;陈炳丰 | 申请(专利权)人: | 广东工业大学 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F16/35 |
代理公司: | 广州市红荔专利代理有限公司 44214 | 代理人: | 吝秀梅;李彦孚 |
地址: | 510006 广东省广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 融合 特征 双向 循环 神经网络 细粒度 意见 挖掘 方法 | ||
一种融合多特征的双向循环神经网络细粒度意见挖掘方法,通过互联网抓取特定网站的评论数据,并对其进行标注和预处理得到训练样本集,使用Word2Vec或Glove模型算法训练得到评论数据的词向量,并进行词性标注、依存关系标注等处理后向量化,将向量输入双向循环神经网络构建得到双向循环神经网络细粒度意见挖掘模型,本发明通过一个模型的训练同时抽取细粒度意见挖掘中属性词以及进行情感极性判断,从而进一步节约了大量的模型训练时间,提高训练效率,而且,无需专业技术人员对属性词进行人工抽取,从而节约了大量的人工成本,另外,可以通过用多种数据源训练模型,从而可以完成跨领域的细粒度意见分析,从而解决长距离情感要素依赖的问题。
技术领域
本发明涉及一种自然语言处理与神经网络技术领域,尤其是一种融合多特征的双向循环神经网络细粒度意见挖掘方法。
背景技术
目前,随着互联网上文本数据的不断增加,对于数据的挖掘和分析任务就显得非常重要,对于文本挖掘和意见分析领域来说,传统的方法有基于词典,基于人工特征模版,还有基于频繁模式挖掘的方法。这一类方法中主要完成了两个任务,一是属性抽取和实体识别,一是情感分析和基于属性词的极性分析,对于意见挖掘的相关研究主要集中在句子或篇章级别的情感分类,用户更期待细粒度级别的意见挖掘结果,现有意见挖掘的主流方法中,利用规则的抽取方法灵活性和扩展性有待提高,而基于隐马尔科夫模型或条件随机场(CRF)的属性抽取方法则不能很好的处理长距离情感要素依赖的问题。
现在大部分的研究工作都是在特定条件下的意见分析和情感分类,如给定一个评论文本和一个目标词,分词目标词在当前句子中的情感极性,或者是基于给定评论文本中出现的不同属性和实体词,判断每个实体的情感极性,而能够完成这个任务的前提是要有大量标记数据,要对每一条数据标出目标词或者属性词,同时标注情感极性,一般属性词的抽取模型还要有人工选择特征和制定模版的过程,这些过程又需要有相关专业背景的人才能够完成,需要消耗大量的人力,而且人工标注语料效率低下,并且主要用神经网络和深度学习的方法都是基于词的表示学习作为特征输入,这样传统的语言学特征如词性,依存关系等就会丢失。
发明内容
针对现有技术的不足,本发明提供一种融合多特征的双向循环神经网络细粒度意见挖掘方法。
本发明的技术方案为:一种融合多特征的双向循环神经网络细粒度意见挖掘方法,其特征在于,包括以下步骤:
S1)、抓取特定网站的评论数据作为训练样本集;
S2)、通过人工标注训练样本集中每条评论数据中所需要的属性或实体,根据人工标注结果使用实体标记方法(BIO)标记每条评论数据的属性或实体后,并进行情感极性标注,即(B1,I1,O)表示评论数据的情感极性为正面,(B2,I2,O)表示评论数据的情感极性为负面,(B3,I3,O)表示评论数据的情感极性为中性,从而得到评论数据中每个词的7个情感极性标记分类结果,即其中,B、I、O分别表示实体的开始、内部、外部;
S3)、对训练样本集进行分词,词性标注和依存关系标注等预处理;
S4)、选取一个汉语的维基百科语料库,并对其进行分词,词性标注和依存关系标注等预处理,使用Word2Vec或Glove模型算法,输入预处理后的训练样本集与预处理后的维基百科语料库,训练输出评论数据与维基百科语料库中每个词的词向量Vec_Model;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东工业大学,未经广东工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710239843.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种LDA并行优化方法
- 下一篇:一种医疗文本数据的命名实体识别方法