[发明专利]文本情感分类模型训练方法、装置、计算机设备及介质在审

申请号：	202010917934.7	申请日：	2020-09-03
公开（公告）号：	CN111984793A	公开（公告）日：	2020-11-24
发明（设计）人：	宋威	申请（专利权）人：	平安国际智慧城市科技股份有限公司
主分类号：	G06F16/35	分类号：	G06F16/35;G06F40/289;G06F40/30;G06F40/242
代理公司：	深圳市赛恩倍吉知识产权代理有限公司 44334	代理人：	迟珊珊;何春兰
地址：	518000 广东省深圳市前海深港合***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	文本情感分类模型训练方法装置计算机设备介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明涉及人工智能技术领域，提供一种文本情感分类模型训练方法、装置、计算机设备及介质，包括：获取多个长文本，并对每个长文本进行切分得到多个文本语句；计算每个长文本中每个文本语句的TextRank值，并根据所述TextRank值为每个长文本生成文本摘要；计算每个文本摘要中的每个文本语句的情感得分；根据所述情感得分对每个文本摘要中的多个文本语句进行排序，并根据排序后的多个文本语句生成文本数据集；基于预训练模型训练多个文本数据集得到文本情感分类模型。本发明能够实现对长文本的情感的准确分类并且不损失原有长文本的位置信息、时序信息以及语义信息。

技术领域

本发明涉及人工智能技术领域，具体涉及一种文本情感分类模型训练方法、装置、计算机设备及介质。

背景技术

医疗长文本的情感分析是网络舆情监控的重要组成部分，能够有效地区分出负面信息，使管理者及时有效的对负面信息进行查证与说明，还能够对网络舆情的爆发进行时刻的监控。

目前大多使用word2vec方法对文本进行编码的方式来实现对文本的分类，或者采用预训练模型BERT实现对文本的分类。然而，发明人在实现本发明的过程中发现，word2vec不能解决一词多义及语法等问题，预训练模型BERT虽能解决一词多义及语法等问题，但却只能对文本长度小于512个字的文本进行分类。可见，目前的文本分类方法对于短文本具有较好的分类效果，但却不适用于医疗长文本的分类。

发明内容

鉴于以上内容，有必要提出一种文本情感分类模型训练方法、装置、计算机设备及介质，能够实现对长文本的情感的准确分类并且不损失原有长文本的位置信息、时序信息以及语义信息。

本发明的第一方面提供一种文本情感分类模型训练方法，所述方法包括：

获取多个长文本，并对每个长文本进行切分得到多个文本语句；

计算每个长文本中每个文本语句的TextRank值，并根据所述TextRank值为每个长文本生成文本摘要；

计算每个文本摘要中的每个文本语句的情感得分；

根据所述情感得分对每个文本摘要中的多个文本语句进行排序，并根据排序后的多个文本语句生成文本数据集；

基于预训练模型训练多个文本数据集得到文本情感分类模型。

根据本发明的一个可选的实施例，所述计算每个长文本中每个文本语句的TextRank值，并根据所述TextRank值为每个长文本生成文本摘要包括：

基于预设的语言模型对每个文本语句进行语句嵌入获得语句向量；

计算所述语句向量间的相似度，并根据所述相似度生成相似矩阵；

根据所述相似矩阵生成文本图结构；