[发明专利]文本情感识别方法及装置、电子设备、存储介质在审
申请号: | 201811244553.6 | 申请日: | 2018-10-24 |
公开(公告)号: | CN109344257A | 公开(公告)日: | 2019-02-15 |
发明(设计)人: | 方豪;马骏;王少军 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35 |
代理公司: | 深圳市隆天联鼎知识产权代理有限公司 44232 | 代理人: | 刘抗美 |
地址: | 518000 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 样本文本 文本情感 电子设备 情感分类 文本 修正 计算机可读存储介质 标签 人工智能技术 存储介质 情感识别 数量分布 算法学习 均衡性 准确率 | ||
1.一种文本情感识别方法,其特征在于,包括:
获取样本文本集,所述样本文本集包括多个样本文本以及各所述样本文本对应的情感分类标签;
根据所述样本文本集中的情感分类标签的数量分布对初始代价进行修正计算,获得修正代价;
通过所述样本文本集与所述修正代价训练一提升算法学习模型,得到文本情感识别模型;
通过所述文本情感识别模型对待识别文本进行识别,得到所述待识别文本的情感识别结果。
2.根据权利要求1所述的方法,其特征在于,所述情感分类标签包括正面情感文本与负面情感文本;
所述根据所述样本文本集中的情感分类标签的数量分布对初始代价进行修正计算,获得修正代价包括:
获取初始代价cost10和cost01,cost10为将正面情感文本误认为负面情感文本的初始代价,cost01为将负面情感文本误认为正面情感文本的初始代价;
统计所述样本文本集中的正面情感文本数量Q1与负面情感文本数量Q0;
通过以下公式对所述初始代价进行修正计算,获得所述修正代价:
其中,R10为样本偏差比例,costm10为将正面情感文本误认为负面情感文本的修正代价,costm01为将负面情感文本误认为正面情感文本的修正代价,a为指数参数。
3.根据权利要求2所述的方法,其特征在于,所述通过所述样本文本集与所述修正代价训练一提升算法学习模型,得到文本情感识别模型包括:
将所述样本文本集划分为训练子集T与验证子集D,D={x1,x2…xm};
利用所述训练子集T训练所述提升算法学习模型;
通过所述提升算法学习模型获取所述验证子集D中每个样本文本xi的情感识别结果f(xi);
根据公式(4)计算所述提升算法学习模型的错误率:
如果所述错误率低于学习阈值,则判定所述提升算法学习模型训练完成,将训练后的所述提升算法学习模型确定为所述文本情感识别模型;
其中,m为所述验证子集中的样本文本数量,i∈[1,m];E为所述提升算法学习模型的错误率,D+为所述验证子集D的正面情感样本文本子集,D-为所述验证子集D的负面情感样本文本子集,yi为样本文本xi的情感分类标签。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
分别根据公式(5)与公式(6)计算所述提升算法学习模型的正面样本错误率E+与负面样本错误率E-:
根据公式(7)计算所述提升算法学习模型的错误率比例:
如果所述错误率比例处于预设范围,则继续检测所述错误率是否低于学习阈值。
其中,s为所述验证子集D的正面情感样本文本数量,v为所述验证子集D的负面情感样本文本数量,m=s+v。
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
如果所述错误率比例未处于所述预设范围,则再次利用所述训练子集T训练所述提升算法学习模型;
通过以下公式重新计算所述提升算法学习模型的错误率比例:
再次检测所述错误率比例是否处于所述预设范围。
6.根据权利要求1所述的方法,其特征在于,所述情感分类标签包括1级正面情感文本、2级正面情感文本、……、n级正面情感文本和1级负面情感文本、2级负面情感文本、……、n级负面情感文本,n为大于1的整数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811244553.6/1.html,转载请声明来源钻瓜专利网。