[发明专利]情感分析方法、装置、电子设备及存储介质在审
申请号: | 201911396945.9 | 申请日: | 2019-12-30 |
公开(公告)号: | CN111191463A | 公开(公告)日: | 2020-05-22 |
发明(设计)人: | 安毫亿;王伟凯;钱艳;朱鹏飞 | 申请(专利权)人: | 杭州远传新业科技有限公司 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F40/289;G06N3/08 |
代理公司: | 杭州创智卓英知识产权代理事务所(普通合伙) 33324 | 代理人: | 张迪 |
地址: | 310000 浙江省杭州市浦沿*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 情感 分析 方法 装置 电子设备 存储 介质 | ||
1.一种情感分析方法,其特征在于:包括以下步骤:
获取文本语料,基于所述文本语料得到分句情感极性和候选词典;
获取种子情感词典、部首集和音位集,基于所述文本语料、所述分句情感极性、所述种子情感词典、所述部首集和所述音位集训练CBOW扩展模型,通过训练完成的CBOW扩展模型得到向量矩阵,所述向量矩阵包括词向量矩阵、部首向量矩阵和音位向量矩阵;
基于所述向量矩阵和所述种子情感词典训练前馈神经网络,得到情感分类器,根据所述候选词典和所述情感分类器,得到所述文本语料所属领域的情感词典,基于所述情感词典对所属领域的文本进行情感分析。
2.如权利要求1所述的一种情感分析方法,其特征在于:基于所述文本语料得到分句情感极性和候选词典,包括:
对所述文本语料进行清洗并分句,对每个分句标注分句情感极性;
对所述文本语料进行分词,得到有效分词,统计所述有效分词出现的词频,将词频大于预设的词频阈值的有效分词作为候选词,所述候选词构成候选词典。
3.如权利要求1所述的一种情感分析方法,其特征在于:基于所述文本语料、所述分句情感极性、所述种子情感词典、所述部首集和所述音位集训练CBOW扩展模型,通过训练完成的CBOW扩展模型得到向量矩阵,包括:
将所述文本语料分词得到目标词,M是所述目标词的数量,目标词记为xi(i=1,...,M),目标词xi的向量wi由目标词xi的词向量部首向量和音位向量连接得到,由目标词xi(i=1,...,M)的向量wi构成向量矩阵,向量矩阵记为W,W=[w1,...,wM]T;
随机初始化向量矩阵W,基于CBOW扩展模型,应用上下文目标函数,计算基于上下文得到目标词xi的向量wi的对数概率f1;
其中,D是目标词xi在所述文本语料中出现的次数,分别为目标词xi预设窗口的上下文词语、上下文字符、子字符和目标词xi的部首,是基于上下文词语得到向量wi的概率,是基于上下文字符得到向量wi的概率,是基于子字符得到向量wi的概率,是基于部首得到向量wi的概率;
应用分句极性目标函数,计算目标词xi所在分句Sei的分句情感极性对数概率f2;
其中,Sei是目标词xi所在的分句,si是分句Sei中包含的词语对应的词向量平均值,S是分句Sei在所述文本语料中出现的次数,spoli是分句Sei对应的分句情感极性;
在所述种子情感词典中查找所述目标词xi进行标记,统计标记次数C,将标记对应的情感极性作为目标词xi的标记情感极性poli,应用词极性目标函数,计算目标词xi的词情感极性对数概率f3;
其中,分别是目标词xi的词向量、部首向量和音位向量,C是目标词xi对应的标记次数,poli是目标词xi的标记情感极性;
应用整体目标函数,计算所述目标词xi(i=1,...,M)语义和情感极性的整体概率f;
f(wi)=f1(wi)+f2(Sei)+f3(wi);
其中,f1(wi)是基于上下文得到目标词xi的向量wi的对数概率,f2(Sei)是目标词xi所在分句Sei的分句情感极性对数概率,f3(wi)是目标词xi的词情感极性对数概率;
根据整体目标函数f(wi)和随机梯度上升法训练CBOW扩展模型,基于训练完成的CBOW扩展模型得到所有目标词xi(i=1,...,M)的向量wi,并构成向量矩阵W。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州远传新业科技有限公司,未经杭州远传新业科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911396945.9/1.html,转载请声明来源钻瓜专利网。