[发明专利]文本情感分析方法、情感分析模型训练方法、装置、设备及介质在审
申请号: | 202111138934.8 | 申请日: | 2021-09-27 |
公开(公告)号: | CN113850072A | 公开(公告)日: | 2021-12-28 |
发明(设计)人: | 计辉 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06F40/211 | 分类号: | G06F40/211;G06F40/216;G06F40/289;G06N3/04;G06N3/08 |
代理公司: | 北京柏杉松知识产权代理事务所(普通合伙) 11413 | 代理人: | 马敬;高莺然 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 情感 分析 方法 模型 训练 装置 设备 介质 | ||
1.一种文本情感分析方法,包括:
获取评论语句;
将所述评论语句输入情感分析模型,所述情感分析模型为通过训练数据集对textRNN模型训练得到的模型,所述训练数据集中包括多条样本评论语句以及定制自然语言处理NLPC模型对每个样本评论语句的情感分析结果;
获取所述情感分析模型输出的情感分析结果。
2.根据权利要求1所述的方法,在所述获取评论语句之后,所述方法还包括:
对所述评论语句进行分词;
将所述评论语句包括的词语与各高频词集合包括的高频词进行匹配,其中,每个高频词集合对应一个意图标签;
将所述评论语句包括的词语所属高频词集合对应的意图标签作为所述评论语句的目标意图标签。
3.根据权利要求2所述的方法,其中,所述情感分析结果包括所述评论语句为正向、负向和中性的概率;所述方法还包括:
基于所述评论语句的情感分析结果和所述评论语句的目标意图标签确定所述评论语句针对所述目标意图标签的情感分析结果。
4.根据权利要求2所述的方法,在对所述评论语句进行分词之前,所述方法还包括:
获取指定时间段内产生的历史评论语句;
对获取到的各历史评论语句进行分词;
获取通过分词得到的词语中出现频次最高的第一预设数量个高频词;
基于所述第一预设数量个高频词两两之间的相似度进行聚类,得到多个高频词集合;
确定每个高频词集合对应的意图标签。
5.根据权利要求4所述的方法,在所述确定每个高频词集合对应的意图标签之后,所述方法还包括:
确定意图覆盖率,所述意图覆盖率为含有所述多个高频词集合中任一高频词的历史评论语句数量占获取到的历史评论语句总数量的比值;
判断所述意图覆盖率是否达到预设阈值;
若是,则确定完成高频词聚类;
若否,则确定不含有高频词的历史评论语句中出现频次最高的第二预设数量个高频词;
对从所述指定时间段内产生的历史评论语句中确定的所有高频词两两之间的相似度进行聚类,得到多个高频词集合;
确定重新确定的每个高频词集合对应的意图标签,并返回所述确定意图覆盖率的步骤,直至所确定的意图覆盖率达到所述预设阈值时,确定完成高频词聚类。
6.一种情感分析模型训练方法,包括:
构建训练数据集,所述训练数据集中包括多条样本评论语句以及基于NLPC模型对每条样本评论语句进行情感分析得到的标签情感分析结果;
基于所述训练数据集对textRNN模型进行训练,得到情感分析模型,所述情感分析模型用于对评论语句进行情感分析。
7.根据权利要求6所述的方法,所述基于所述训练集对所述textRNN模型进行训练,得到情感分析模型,包括:
选择所述训练数据集中的一条样本评论语句,将该样本评论语句作为目标评论语句;
通过所述textRNN模型处理所述目标评论语句,得到所述textRNN模型对所述目标评论语句的情感分类结果;
基于所述textRNN模型对所述目标评论语句的情感分类结果以及所述目标评论语句的标签情感分析结果之间的差异,计算所述textRNN模型的损失值;
基于所述损失值调整所述textRNN模型的参数,并返回选择所述训练数据集中的一条样本评论语句的步骤,直至所述textRNN模型收敛时,将训练得到的textRNN模型作为所述情感分析模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111138934.8/1.html,转载请声明来源钻瓜专利网。