[发明专利]基于多模型融合的新闻情感分析方法在审
申请号: | 202011400913.4 | 申请日: | 2020-12-03 |
公开(公告)号: | CN112507723A | 公开(公告)日: | 2021-03-16 |
发明(设计)人: | 张琨;刘志敏;张李林清;孙琦;李寻 | 申请(专利权)人: | 南京理工大学 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F40/295;G06F16/951;G06N3/04 |
代理公司: | 南京理工大学专利中心 32203 | 代理人: | 岑丹 |
地址: | 210094 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 模型 融合 新闻 情感 分析 方法 | ||
1.一种基于多模型融合的新闻情感分析方法,其特征在于,包括以下步骤:
步骤1:面向事件利用爬虫技术,爬取官方新闻网站相关英文新闻,得到原始新闻语料库;
步骤2:对爬取到的英文新闻文本进行预处理;
步骤3:根据预处理后的新闻语料库中的英文新闻文本信息,建立面向国家、人物、组织、事件的实体知识库,并利用建立的实体知识库对预处理后的英文新闻文本进行情感倾向标注,并将标注为情感句的英文新闻文本分为三级进行标注;
步骤4:利用三级标注后的英文新闻文本对情感分析模型进行训练,使其具备将预处理后的英文新闻文本进行三级分类的功能;
步骤5:对爬取的英文新闻文本按步骤2、步骤3进行预处理和情感倾向标注,将标注为情感句的英文新闻句输入训练好的情感分析模型,获得分类结果。
2.根据权利要求1所述的基于多模型融合的新闻情感分析方法,其特征在于,对爬取到的英文新闻文本进行预处理包括对爬取到的新闻语料进行分句、去停用词、标准化。
3.根据权利要求1所述的基于多模型融合的新闻情感分析方法,其特征在于,所述实体知识库中存储人物、组织的英文正式名称、别称、国家名称、热点事件。
4.根据权利要求1所述的基于多模型融合的新闻情感分析方法,其特征在于,利用建立的实体知识库对预处理后的英文新闻文本进行情感倾向标注的原则为:
当一句新闻中出现了n个知识库实体时标注为情感句,n为可调整的参数。
5.根据权利要求1所述的基于多模型融合的新闻情感分析方法,其特征在于,所述情感分析模型(CNN-BiGRU)包括词嵌入层、Dropout层、卷积神经网络、池化层、双向门控循环单元、输出层,所述词嵌入层用于将输入的一句话转换为向量;所述Dropout层设置在词嵌入层后;所述卷积神经网络用于对Dropout层输出的词向量进行卷积操作,获得词与词之间的局部特征;所述池化层用于对卷积后的特征进行池化操作;所述双向门控循环单元包括一个前向的GRU单元和一个后向的GRU单元,所述输出层用于将特征向量进行全连接后输入到分类器中得到分类结果。
6.根据权利要求5所述的基于多模型融合的新闻情感分析方法,其特征在于,所述卷积神经网络卷积操作得到的局部特征为:
ci=f(w·xi:i+h-1+b)
其中,b表示偏置量,f(·)表示非线性卷积核函数,xi:i+h-1表示生成的向量矩阵中第i到第i+h-1行,w表示权重矩阵。
7.根据权利要求5所述的基于多模型融合的新闻情感分析方法,其特征在于,GRU单元体用于计算文本特征向量,具体计算公式为:
zt=σ(wz·[ht-1,xt])
rt=σ(wr·[ht-1,xt])
其中,xt表示t时刻的输入,ht-1表示t-1时刻GRU单元体的输出,w表示权重矩阵,zt是控制更新的门控,rt是控制重置的门控,表示候选隐藏状态,ht表示最后输出的文本特征向量。
8.根据权利要求5所述的基于多模型融合的新闻情感分析方法,其特征在于,采用Concatenate方式对卷积神经网络输出的句子特征fc、双向门控循环单元输出的句子特征fg进行融合处理后输入输出层,融合处理后的特征为:
9.根据权利要求5所述的基于多模型融合的新闻情感分析方法,其特征在于,分类器的输出为:
其中,是权重矩阵,是权重偏差,是每个类别的概率。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京理工大学,未经南京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011400913.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种2-氟-5-溴碘苯的制备方法
- 下一篇:一种食品包装用封口装置