[发明专利]识别文本中情感语句的方法、装置、电子设备及介质在审
申请号: | 202210051544.5 | 申请日: | 2022-01-17 |
公开(公告)号: | CN114547234A | 公开(公告)日: | 2022-05-27 |
发明(设计)人: | 冯琰一;邹游;徐博诚;江廷雪 | 申请(专利权)人: | 特斯联科技集团有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/35;G06F40/211;G06F40/216;G06F40/289;G06F40/247 |
代理公司: | 北京辰权知识产权代理有限公司 11619 | 代理人: | 李小朋 |
地址: | 101100 北京市通*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 识别 文本 情感 语句 方法 装置 电子设备 介质 | ||
1.一种识别文本中情感语句的方法,其特征在于,包括:
获取包含至少一个待识别语句的待识别文本;
将所述待识别文本输入至预训练完成的目标文本识别模型,得到每个待识别语句对应的情感标签,所述文本识别模型用于确定所述待识别语句所表征的情感状态;
提取所述待识别文本中,情感标签达到预设条件的待识别语句。
2.如权利要求1所述的方法,其特征在于,在所述获取包含至少一个待识别语句的待识别文本之前,还包括:
获取初始文本识别模型,以及初始样本数据集;
利用所述初始样本数据集对所述初始文本识别模型进行训练,得到第一文本识别模型;
利用所述第一文本识别模型,得到所述目标文本识别模型。
3.如权利要求2所述的方法,其特征在于,所述利用所述第一文本识别模型,得到所述目标文本识别模型,包括:
对所述初始样本数据集进行数据增强处理,得到目标样本数据集;
对所述目标样本数据集包含的每个样本语句标注对应的情感类型以及对应的情感级别,其中不同的情感级别用于反映不同的情感强烈程度;
利用所述目标样本数据集对所述第一文本识别模型进行训练,得到所述目标文本识别模型。
4.如权利要求3所述的方法,其特征在于,利用以下损失函数训练得到所述目标文本识别模型:
其中,qM代表模型输出概率,x代表所述样本识别语句,n∈{0,1}。
5.如权利要求3所述的方法,其特征在于,所述对所述初始样本数据集进行数据增强处理,得到目标样本数据集,包括:
对所述初始样本数据集中的至少一个词语进行同义词替换;以及,对所述初始样本数据集中的至少两个词语进行位置交换;以及,对所述初始样本数据集中的至少一个词语进行随机删除;以及,对所述初始样本数据集中的至少一个词语进行随机插入,得到所述目标样本数据集。
6.如权利要求1所述的方法,其特征在于,利用以下公式得到每个待识别语句对应的情感标签:
其中,s表示为s=Wnsph[CLS],且h[CLS]表示[CLS]的隐藏状态向量,Wnsp代表任务学习的矩阵,n∈{0,1},且[CLS]标识所述样本语句的开始符,表示样本语句,表示样本语句对应的情感类型以及对应的情感级别。
7.如权利要求1所述的方法,其特征在于,在所述将所述待识别文本输入至预训练完成的目标文本识别模型,得到每个待识别语句对应的情感标签之后,还包括:
根据每个待识别语句对应的情感标签,确定每个待识别语句对应的情感类型以及对应的情感级别;
将情感标签对应于目标情感类型,以及对应于最高情感级别的待识别语句作为所述情感标签达到预设条件的待识别语句。
8.一种识别文本中情感语句的装置,其特征在于,包括:
获取模块,被配置为获取包含至少一个待识别语句的待识别文本;
输入模块,被配置为将所述待识别文本输入至预训练完成的目标文本识别模型,得到每个待识别语句对应的情感标签,所述文本识别模型用于确定所述待识别语句所表征的情感状态;
提取模块,被配置为提取所述待识别文本中,情感标签达到预设条件的待识别语句。
9.一种电子设备,其特征在于,包括:
存储器,用于存储可执行指令;以及,
处理器,用于与所述存储器执行所述可执行指令从而完成权利要求1-7中任一所述识别文本中情感语句的方法的操作。
10.一种计算机可读存储介质,用于存储计算机可读取的指令,其特征在于,所述指令被执行时执行权利要求1-7中任一所述识别文本中情感语句的方法的操作。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于特斯联科技集团有限公司,未经特斯联科技集团有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210051544.5/1.html,转载请声明来源钻瓜专利网。