[发明专利]基于协同过滤注意力机制的文本情感识别系统有效
申请号: | 201810008530.9 | 申请日: | 2018-01-04 |
公开(公告)号: | CN108388554B | 公开(公告)日: | 2021-09-28 |
发明(设计)人: | 陶建华;赵冬梅;李雅 | 申请(专利权)人: | 中国科学院自动化研究所 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F16/335;G06F16/35;G06Q30/02 |
代理公司: | 北京市恒有知识产权代理事务所(普通合伙) 11576 | 代理人: | 郭文浩 |
地址: | 100190 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 协同 过滤 注意力 机制 文本 情感 识别 系统 | ||
1.一种基于协同过滤注意力机制的文本情感识别系统,其特征在于,包括:文本预处理模块、文本向量化模块、用户兴趣分析模块、句子特征提取模块、文档特征提取模块、情感分类模块;
所述文本预处理模块,用于接收待处理的文本,剔除原始文本中的标点符号以及停用词,生成预处理后的文本数据;
所述文本向量化模块,用于接收所述预处理后的文本数据,并生成文本的词向量表示;
所述用户兴趣分析模块,根据用户对已知产品的评分数据通过协同过滤算法提取出用户个性矩阵和产品属性矩阵,作为模型注意力机制;
所述句子特征提取模块,用于接收所述文本的词向量表示,并输入到第一层长短时记忆模型中,经过变换得到词语级别的隐状态表示;根据所述词语级别的隐状态表示和所述模型注意力机制,提取句子特征;
所述文档特征提取模块,用于接收所述句子特征,并输入到第二层长短时记忆模型中,生成句子级别的隐状态表示;根据所述句子级别的隐状态表示和所述模型注意力机制,提取文档特征;
所述情感分类模块,用于将所述文档特征输入分类器,进行情感类型识别;
其中,所述第一层长短时记忆模型、所述第二层长短时记忆模型,均为经过训练的长短时记忆模型;
其中,所述用户兴趣分析模块,包括:用户兴趣分布矩阵生成单元、注意力机制生成单元;
所述用户兴趣分布矩阵生成单元,用于根据用户对已评价产品的打分数据,计算产品共现矩阵和用户评分矩阵;并根据所述产品共现矩阵和所述用户评分矩阵,预测用户对未评价的产品的评分值,进而生成用户兴趣分布矩阵;
所述注意力机制生成单元,用于根据所述用户兴趣分布矩阵,通过奇异值分解法得到用户个性矩阵和产品属性矩阵;
其中,
所述产品共现矩阵,用于描述两种不同的产品是否共同出现在同一用户已评分过的产品集合中,以及在多少个用户中共同出现过;
所述用户评分矩阵,用于描述不同用户分别对已评价产品的评分值;
所述用户兴趣分布矩阵,用于描述不同用户分别对已评价产品和/或未评价产品的评分值;
其中,所述用户兴趣分布矩阵生成单元,用于根据用户对已评价产品的打分来计算用户对与该已评价产品相似的产品的喜好程度来生成用户兴趣分布矩阵;
其中,所述句子特征提取模块,包括:词语级别的隐状态生成单元、句子特征生成单元;
所述词语级别的隐状态生成单元,用于接收所述文本的词向量表示,并输入到第一层长短时记忆模型中,经过变换得到词语级别的隐状态表示;
所述句子特征生成单元,用于根据所述词语级别的隐状态表示和所述模型注意力机制,计算得到句子特征;
其中,所述文档特征提取模块,包括:句子级别的隐状态生成单元、文档特征生成单元;
所述句子级别的隐状态生成单元,用于接收所述句子特征,并输入到第二层长短时记忆模型中,生成句子级别的隐状态表示;
所述文档特征生成单元,用于根据所述句子级别的隐状态表示和所述模型注意力机制,提取文档特征;
所述用户兴趣分布矩阵生成单元中,“根据所述产品共现矩阵和所述用户评分矩阵,预测用户对未评价的产品的评分值,进而生成用户兴趣分布矩阵”,包括:
根据所述产品共现矩阵,计算产品之间的相似度:
计算所述用户评分矩阵中最大值与最小值的差值,将所述用户评分矩阵中的各评分值除以所述差值,从而得到归一化的所述用户评分矩阵;
根据所述产品之间的相似度和归一化的所述用户评分矩阵,计算每个用户对未评价产品的评分值:
根据用户在所述用户评分矩阵中的对应数据,以及计算出的所述用户对未评价产品的评分值,得到用户兴趣分布矩阵;
其中,表示产品a与b之间的相似度,<a,b>表示产品a与b共同出现的次数;||a||||b||表示使用产品a的用户数与使用产品b的用户数乘积的开方值;i、j分别表示用户已评价过产品的序号和未评价过产品的序号;u表示用户的序号,ruj表示计算出的第u个用户对第j个未评价产品的评分值;P为产品总数;pu为第u个用户已评价产品的个数,P-pu为第u个用户未评价产品的个数;表示第i个已评价产品与第j个未评价产品的相似度;rui表示第u个用户对第i个已评价产品的评分值;
其中,所述注意力机制生成单元中,“根据所述用户兴趣分布矩阵,通过奇异值分解法得到用户个性矩阵和产品属性矩阵”,具体为:
利用下式进行计算:
A=USVT
其中,A表示待分解的用户兴趣分布矩阵;S表示对角矩阵,其行数与矩阵U的列数一致,列数与矩阵VT的行数一致;U与VT是分解后得到的矩阵;U表示所述用户个性矩阵,其行表示用户数量,其列与词向量维度一致;VT表示所述产品属性矩阵V的转置矩阵,其行表示产品数量,其列与词向量维度一致。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院自动化研究所,未经中国科学院自动化研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810008530.9/1.html,转载请声明来源钻瓜专利网。