[发明专利]一种面向产品属性的观点倾向性分析方法及系统在审
申请号: | 201910480857.0 | 申请日: | 2019-06-04 |
公开(公告)号: | CN110362817A | 公开(公告)日: | 2019-10-22 |
发明(设计)人: | 刘全超;胡玥 | 申请(专利权)人: | 中国科学院信息工程研究所 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F16/33;G06F16/35;G06N3/08 |
代理公司: | 北京君尚知识产权代理事务所(普通合伙) 11200 | 代理人: | 邱晓锋 |
地址: | 100093 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 产品属性 倾向性分析 观点信息 检索系统 产品评论 空间信息 语义表示 倾向性 句子 注意力 词语 互联网产品 技术实现 技术手段 评论数据 文本序列 影响产品 用户兴趣 语义信息 分类器 数据集 嵌入 网络 查询 学习 | ||
1.一种面向产品属性的观点倾向性分析方法,其特征在于,包括以下步骤:
1)通过预训练词嵌入模型将输入句子及其对应的评价对象中的词语映射到高维向量空间,得到词向量;
2)利用所述词向量,使用神经网络模型对评价对象及其所在的输入句子的上下文内容进行建模,并将输入句子中每个词语相对于评价对象的距离信息进行词语位置信息编码;
3)利用所述神经网络模型的输出结果和所述词语位置编码,通过注意力机制获得带有注意力权重的句子向量表示和评价对象向量表示;
4)根据所述带有注意力权重的句子向量表示和评价对象向量表示,计算评价对象的观点倾向性分析结果的概率分布,从而获得观点倾向性分析结果。
2.根据权利要求1所述的方法,其特征在于,步骤1)采用Google的BERT-Base预训练词嵌入模型,并通过微调方式进行词嵌入模型修正;步骤2)所述神经网络模型为Bi-LSTM神经网络模型或者Bi-GRU神经网络模型。
3.根据权利要求1或2所述的方法,其特征在于,根据步骤1)~4)训练观点倾向性分析模型,在训练完成后,将待分析的句子输入所述观点倾向性分析模型,并输出观点倾向性分析结果。
4.根据权利要求3所述的方法,其特征在于,所述观点倾向性分析模型在训练时,采用带有L2规范化约束的交叉熵作为损失函数,记作:
其中,C表示分类标签数量,gi表示样本i的真实分类标签,pi表示样本i属于某类分类标签的概率,λr表示L2规范化的系数;然后使用BP反向传播算法计算梯度,并通过以下计算方式更新所有参数:
其中λl表示学习率。
5.根据权利要求1所述的方法,其特征在于,步骤2)所述将输入句子中每个词语相对于评价对象的距离信息d进行词语位置信息编码,其计算过程如下:
其中l表示输入句子中当前词语与评价对象的距离,N表示输入句子中的词语数量,M表示评价对象中的词语数量。
6.根据权利要求1所述的方法,其特征在于,步骤3)包括:
3.1)计算评价对象Qi,avg对输入句子中每个词语的注意力权重βc:
其中,c表示输入句子s中的某个词语,c=1,2,…,N,H′c表示输入句子s中的第c个词语的语义信息,σ表示用来计算输入句子中词语H′c要性的函数定义如下:
σ(H′c,Qi,avg)=tanh(H′c·Wa·Qi,avgT+ba)
其中Wa和ba分别表示权重矩阵和偏置,tanh是非线性激活函数,Qi,avgT是Qi,avg的转置矩阵;
3.2)计算输入句子Havg对评价对象中每个词语的注意力权重γc:
其中,表示评价对象αi中第c个词的语义信息,σ表示用来计算评价对象中词语重要性的函数,定义如下:
其中Wb和bb分别表示权重矩阵和偏置,HavgT是Havg的转置矩阵。
3.3)获得带有注意力权重的句子向量表示sr和评价对象向量表示αir,计算过程如下:
3.4)将句子向量表示sr和评价对象向量表示αir拼接起来作为输出层的输入m,计算过程如下:
m=[sr,αir]。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院信息工程研究所,未经中国科学院信息工程研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910480857.0/1.html,转载请声明来源钻瓜专利网。