[发明专利]一种带背景描述的企业情感分析方法在审
申请号: | 201910593643.4 | 申请日: | 2019-07-03 |
公开(公告)号: | CN110287326A | 公开(公告)日: | 2019-09-27 |
发明(设计)人: | 顾凌云;严涵;王洪阳 | 申请(专利权)人: | 上海冰鉴信息科技有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/36;G06F17/27;G06Q50/00 |
代理公司: | 常州佰业腾飞专利代理事务所(普通合伙) 32231 | 代理人: | 滕诣迪 |
地址: | 200120 上海市上海自*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种带背景描述的企业情感分析方法,属于大数据技术领域,包括对新闻信息进行预处理,使用CBOW结构的word2vec模型对摘要和公司名相关的文本信息进行预训练得到相应的词向量,将带背景描述的文本表示使用多个不同卷积核提取特征,池化后将不同特征进行拼接,将拼接后的特征通过情感分析分类器计算各情感分类的概率,得到带背景描述的情感分析结果,解决了通过对指定公司名上下文相关信息的自注意力编码得到相关背景描述信息,并通过叠加背景描述信息,使对企业的情感分析结果更加正确的技术问题,本发明不用对整个文本进行情感分析,细致的分析出了文本中的每一个部分的感情,分析准确度高。 | ||
搜索关键词: | 情感分析 描述信息 拼接 文本 预处理 上下文相关 情感分类 提取特征 文本表示 文本信息 新闻信息 准确度 词向量 大数据 分类器 卷积核 池化 叠加 注意力 分析 概率 | ||
【主权项】:
1.一种带背景描述的企业情感分析方法,其特征在于:包括如下步骤:步骤1:建立服务器集群,服务器集群从互联网中获取公开的新闻数据;在服务器集群中建立数据预处理模块、word2vec模型模块和情感分类器模块;步骤2:服务器集群从公开的新闻数据中获取新闻的文本信息;步骤3:数据预处理模块对文本信息进行预处理,去除无关情感的符号,提取文本信息中的公司名、摘要和相关文本;相关文本为与提取出的公司名相关的部分文本;设定情感标签,利用情感标签对文本信息进行标注,去除无关情感的符号;步骤4:word2vec模型模块使用CBOW结构的word2vec模型对摘要和相关文本进行预训练,将摘要和相关文本向量化,使用位置嵌入的方法计算词的位置向量,得到相应的词向量,将每个位置编号,然后每个编号对应一个向量,通过结合位置向量和词向量,给每个词都引入一定的位置信息,使用以下两个公式计算位置向量:其中,将id为p的位置映射为一个dpos维的位置向量,这个向量的第i个元素的数值就是位置向量PEi(p);步骤5:使用位置嵌入方法,对摘要的文本中的所有词进行位置编号,每个编号对应一个词向量,为每一个词向量引入位置信息,得到对摘要的表示;步骤6:将向量化后的相关文本输入基于自注意力机制的编码器中,通过学习语句自身内部所有字词间的关系,计算源语句内的每个字词与目标语句中所有字词之间的自注意力相关系数,经过线性变化学习句法级别的文本表示方法,得到对相关文本的表示;将对摘要的表示和对相关文本的表示结合,得到带有公司名的背景描述信息;步骤7:将带有公司名的背景描述信息送入到卷积核大小为别为3、4、5的卷积神经网络,利用多个不同的卷积核来提取句子中的关键信息,再通过softmax归一化计算数据所属各情感类别的概率,获取概率最大的情感标签作为情感分析的分析结果。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海冰鉴信息科技有限公司,未经上海冰鉴信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910593643.4/,转载请声明来源钻瓜专利网。