[发明专利]一种基于上下文信息和卷积神经网络的文本情感分类方法在审
申请号: | 202010731311.0 | 申请日: | 2020-07-27 |
公开(公告)号: | CN111858939A | 公开(公告)日: | 2020-10-30 |
发明(设计)人: | 陈福 | 申请(专利权)人: | 上海五节数据科技有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/953;G06F40/30;G06N3/04;G06N3/08 |
代理公司: | 北京盛凡智荣知识产权代理有限公司 11616 | 代理人: | 赵芳蕾 |
地址: | 201108 上海市闵行*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 上下文 信息 卷积 神经网络 文本 情感 分类 方法 | ||
本发明公开了一种基于上下文信息和卷积神经网络的文本情感分类方法,步骤包括:1)文本预处理;2)文本的词向量表示;3)文本的上下文信息生成;4)神经网络模型训练和分类。本发明在词向量基础上,抽取文本的上下文信息,并将多种不同尺度的卷积核融入卷积神经网络中,既能利用文本中更丰富的语义信息,又能捕获词语之间在不同尺度的关系,实现更准确的文本情感分类。
技术领域
本发明属于自然语言处理技术与模式识别领域,具体地说是一种基于上下文信息和卷积神经网络的文本情感分类方法。
背景技术
文本是互联网上信息传递的一种主要形式。与图像、声音等信息传递形式相比,文本数据量较小,但可以包含大量信息,而且可以更容易表达用户观点。互联网上存在大量带有情感倾向性的文本,这些情感倾向性文本往往以商品评论、论坛评论和博客等各种形式存在。文本情感分类是根据文本内容所体现的用户意见的情感极性将其分为正面、中性和负面三类。由于巨大的商业价值,近年来,文本情感分类在自然语言处理研究领域得到了很大的关注。传统情感分类包括支持向量机(SvM)、决策树、朴素贝叶斯分类器等。然而这些方法都存在一定缺陷,如SvM在建模复杂非线性问题时表达能力不足,决策树在噪声情况下容易出现过拟合,朴素贝叶斯分类器需要属性的独立性假设。相比传统分类方法,近年来兴起的深度学习模型则表现出了良好的自适应性和容错性。
大多数基于深度学习的文本情感分类方法直接将文本表达为词向量矩阵,并利用卷积神经网络分类。词向量是采样神经网络语言模型和N-gram语言模型将每个词语都表示成一个实数向量。然而,这种方法没有充分挖掘文本的上下文语义信息,难以表达文本中复杂的情感,使得文本情感分类的准确率仍存在提高的空间。
发明内容
本发明为克服现有技术存在的不足之处,提出一种基于上下文信息和卷积神经网络的文本情感分类方法,以期能进一步提高文本情感分类的准确性。
本发明为解决技术问题采用如下技术方案:
一种基于上下文信息和卷积神经网络的文本情感分类方法,按如下步骤进行:
步骤1:获取文本集合D={D1,D2,…,DN{及对应的情感标签集合Y={y1,y2,…,yN{,Dt表示第t个文本,yt表示第t个文本的情感极性:如果Dt的情感为正面,则yt=1,如果Dt的情感为负面,则yt=2,如果Dt的情感为中性,则yt=3,1≤t≤N,N为文本集合D中的文本总数;
步骤2:对文本集合D中的每个文本Dt进行分词,并对分词结果进行去除停用词,从而获得第t个文本Dt所包含的词语序列di表示Dt中的第i个词语;1≤i≤mt,mt为去除停用词后Dt中包含的词语总数,也就是文本Dt的长度;
步骤3:取文本集合D中的最长文本长度为H,将每个文本的词语序列转换成固定长度{d1,d2,…,dH},如果mt<H,则在词语序列后面补H-mt个字符NULL;
步骤4:通过查表的方式得到文本Dt的词向量矩阵Vt=[v1,v2,…,vH]∈RH×p,其中vi∈Rp为词语di的词向量表示,NULL对应的词向量为全0的p维向量;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海五节数据科技有限公司,未经上海五节数据科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010731311.0/2.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置