[发明专利]一种基于融合词性和语义信息的Skip-gram模型的情感分析方法有效
申请号: | 201810481860.X | 申请日: | 2018-05-18 |
公开(公告)号: | CN108733653B | 公开(公告)日: | 2020-07-10 |
发明(设计)人: | 李瑞轩;文坤梅;黄伟;李玉华;辜希武;昝杰;龚晶 | 申请(专利权)人: | 华中科技大学 |
主分类号: | G06F40/284 | 分类号: | G06F40/284;G06F16/35 |
代理公司: | 华中科技大学专利中心 42201 | 代理人: | 李智;曹葆青 |
地址: | 430074 湖北*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 融合 词性 语义 信息 skip gram 模型 情感 分析 方法 | ||
本发明公开了一种基于融合词性和语义信息的Skip‑gram模型的情感分析方法,包括:数据预处理、词性信息建模、词向量表示、语义信息建模、情感分析五个步骤。其中数据预处理包括过滤、分词、词性标注;词性信息建模包含基于上下文对词性信息建模;词向量表示模块在融合词性信息的Skip‑gram模型上进行向量训练;语义信息建模模块包括融合情感语义信息的文本表示。同现有技术相比,本发明考虑了单词的词性信息及情感语义信息,且在对单词的词性信息建模和融合语义信息的基础上,充分利用单词的词性信息帮助词向量训练以及情感语义先验信息帮助文本向量的学习,使得表示的文本向量更加符合语言学特征,对于情感分析有很好的结果。
技术领域
本发明属于自然语言处理领域,具体涉及一种基于融合词性和语义信息的Skip-gram模型的情感分析方法。
背景技术
随着电子商务的发展,商品评论文本的情感分析与挖掘对于研究商品口碑、进行商品推荐都具有重要的价值,评论数据已成为企业提高商品质量和提升服务的重要数据源。
随着深度学习在音频、图像、视频领域所取得的巨大成就,用深度学习中的神经网络模型融合传统的机器学习模型,用低维度并能度量单词间的语义关联度的词向量替代传统词袋模型中采用的One-hot向量,在情感分析(Sentiment Analysis)、命名实体识别、机器翻译以及词性标注等多种自然语言处理任务中,相比于传统机器学习方法都取得了优越的性能表现。在处理中文文本时,分词后的单词是具有独特语义含义的最小单位。通过一定词法、语法规则将单词与上下文一起构成了短语、句子,而其上下文也是由多个单词构成的。在自然语言处理(Natural language processing,NLP)中,涉及到处理句子及文章,独立语义的单词表示的好坏直接影响模型的性能和质量。对于文本情感分类任务,单词的情感语义信息是影响商品评论情感的重要因素,合理利用单词的情感先验能够提高商品文本情感分析的准确度。单词向量合成文本向量的过程中,不同语义的单词对于文本向量的影响程度不同,例如:名词“苹果”和主观单词“喜欢”中,主观单词“喜欢”对于商品评论文本情感倾向有较大的影响。
Bengio等人提出了一种神经网络语言模型(Neural Network Language Model,NNLM)表示词向量的方法,该方法通过学习器将词表征为固定长度的向量,这些向量组成词向量空间,词与词之间的语义相似度通过坐标距离衡量,克服了one-hot表示方式的维灾、稀疏性等缺点;Bengio等人采用经典的三层前馈神经网络直接对n-gram语言模型进行求解,期间通过考虑投影层与输出层之间神经元相连的情形减少迭代次数,最后用softmax函数归一化得到词汇表每个单词的概率,并获取中间产物-词向量;Mikolov等人首次使用循环神经网络做语言模型,循环神经网络能够充分利用上下文词信息,将输出词频|V|分组为均摊,时间复杂度为通过这种方式学到的词向量几乎能够和词向量(上下文语义表示)的定义契合;Gittens等人证明当单词满足足Zipf分布时,通过Skip-Gram负采样训练的词向量具有矢量可加性的原因,并引入了KL-divergence相似度,证明了一系列上下文单词C1,...,Cm和单词c对其它单词w而言具有相同的意义,即Socher等人使用句法分析器构建句法树,树中的每个叶子节点代表单词,通过叶子节点合成子树-对应短语,网络合成的语义也表示为对应短语的语义,最终合成整个树;Kalchbrenner等人提出了动态卷积神经网络为句子建模,该模型在句子线性序列上使用动态K大池化技术,将输入句子合并为图,因为该模型没有依赖句子树的解析,所以模型适用性更强;Qian等人提出了基于语言正则的LSTM情感分析模型,模型的核心为在句子邻接的位置分别建立非情感正则、情感正则、否定正则、强度正则,之后作者为缓解否定和强度单词长度跨度问题将正则信息加入双向LSTM;Deriu等人扩充了单层的卷积神经网络到两层的卷积层、池化层,利用多种语言中的弱监督数据集训练卷积神经网络,验证在跨语言情感分析中预训练网络的重要性。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华中科技大学,未经华中科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810481860.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:基于机器学习的影评情感倾向性分析的测试方法
- 下一篇:一种信息处理方法