[发明专利]文本情感识别方法及装置、电子设备、存储介质在审
申请号: | 201811244553.6 | 申请日: | 2018-10-24 |
公开(公告)号: | CN109344257A | 公开(公告)日: | 2019-02-15 |
发明(设计)人: | 方豪;马骏;王少军 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35 |
代理公司: | 深圳市隆天联鼎知识产权代理有限公司 44232 | 代理人: | 刘抗美 |
地址: | 518000 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 样本文本 文本情感 电子设备 情感分类 文本 修正 计算机可读存储介质 标签 人工智能技术 存储介质 情感识别 数量分布 算法学习 均衡性 准确率 | ||
本公开提供了一种文本情感识别方法及装置、电子设备、计算机可读存储介质,属于人工智能技术领域。该方法包括:获取样本文本集,所述样本文本集包括多个样本文本以及各所述样本文本对应的情感分类标签;根据所述样本文本集中的情感分类标签的数量分布对初始代价进行修正计算,获得修正代价;通过所述样本文本集与所述修正代价训练一提升算法学习模型,得到文本情感识别模型;通过所述文本情感识别模型对待识别文本进行识别,得到所述待识别文本的情感识别结果。本公开可以提高识别不同情感类别的文本的准确率均衡性,改善识别效果,且具有较强的适用性。
技术领域
本公开涉及人工智能技术领域,尤其涉及一种文本情感识别方法及装置、电子设备、计算机可读存储介质。
背景技术
随着计算机技术的发展,越来越多的互联网企业致力于通过分析大数据以提高服务质量。其中,对文本进行情感识别是一项重要的工作,例如对用户作出的服务评价进行情感识别、对互联网文章进行情感识别与分类等,从而更好地了解用户的诉求、或者实现文本的精准定位与推荐等有益效果。
现有的文本情感识别方法大多采用常规的机器学习模型,依赖于特定语料的样本文本对模型进行训练。然而在很多语料中,不同情感的样本文本都存在比例不均衡的问题,例如在识别电商消费者对商品评价的情感的场景中,由于正面评价的数量通常远多于负面评价的数量,导致样本文本的比例不均衡,训练出的机器学习模型识别正面情感文本的准确率会高于识别负面情感文本的准确率,影响文本情感识别的效果。
需要说明的是,在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
本公开提供了一种文本情感识别方法及装置、电子设备、计算机可读存储介质,进而至少在一定程度上克服现有的文本情感识别方法识别不同情感类别的文本时准确率不均衡的问题。
本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。
根据本公开的一个方面,提供一种文本情感识别方法,包括:获取样本文本集,所述样本文本集包括多个样本文本以及各所述样本文本对应的情感分类标签;根据所述样本文本集中的情感分类标签的数量分布对初始代价进行修正计算,获得修正代价;通过所述样本文本集与所述修正代价训练一提升算法学习模型,得到文本情感识别模型;通过所述文本情感识别模型对待识别文本进行识别,得到所述待识别文本的情感识别结果。
在本公开的一种示例性实施例中,所述情感分类标签包括正面情感文本与负面情感文本;所述根据所述样本文本集中的情感分类标签的数量分布对初始代价进行修正计算,获得修正代价包括:获取初始代价cost10和cost01,cost10为将正面情感文本误认为负面情感文本的初始代价,cost01为将负面情感文本误认为正面情感文本的初始代价;统计所述样本文本集中的正面情感文本数量Q1与负面情感文本数量Q0;通过以下公式对所述初始代价进行修正计算,获得所述修正代价:
其中,R1为样本偏差比例,costm10为将正面情感文本误认为负面情感文本的修正代价,costm01为将负面情感文本误认为正面情感文本的修正代价,a为指数参数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811244553.6/2.html,转载请声明来源钻瓜专利网。