[发明专利]讽刺类型的文本识别方法、装置、设备及计算机可读介质在审
申请号: | 202010549951.X | 申请日: | 2020-06-16 |
公开(公告)号: | CN111859980A | 公开(公告)日: | 2020-10-30 |
发明(设计)人: | 李秋丹;刘春阳;彭鑫;张丽;曾大军;张旭;刘贺静;王鹏;王林子;陈志鹏;贾玉改;张翔宇;解峥 | 申请(专利权)人: | 中国科学院自动化研究所;国家计算机网络与信息安全管理中心 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F40/289;G06F16/9536;G06N3/04;G06N3/08 |
代理公司: | 北京华夏泰和知识产权代理有限公司 11662 | 代理人: | 曾军;李雪 |
地址: | 100190 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 讽刺 类型 文本 识别 方法 装置 设备 计算机 可读 介质 | ||
1.一种讽刺类型的文本识别方法,其特征在于,包括:
获取待处理文本,其中,所述待处理文本来自于社交媒体网络平台;
采用多种方式提取所述待处理文本的目标特征信息,其中,所述目标特征信息为从特征集合中选择出来的多个特征信息的加权和表示;
根据第一神经网络模型对所述目标特征信息的识别结果确定所述待处理文本的文本类型,其中,所述第一神经网络模型是采用具有标记信息的训练数据对第二神经网络模型进行训练后得到的,所述标记信息用于标记所述训练数据是否为目标类型,所述识别结果用于指示所述待处理文本是否为所述目标类型,所述目标类型为讽刺类型。
2.根据权利要求1所述的方法,其特征在于,采用多种方式提取所述待处理文本的目标特征信息包括:
将所述待处理文本转换为词向量;
采用多种方式确定相邻词向量之间的多个第一情绪对立参数;
融合所述多个第一情绪对立参数,得到所述相邻词向量之间的第二情绪对立参数;
在得到所有所述相邻词向量之间的所述第二情绪对立参数的情况下,利用所有所述第二情绪对立参数组成的矩阵确定所述待处理文本中各个词向量的注意力向量;
获取所述各个词向量与对应所述注意力向量的乘积的和,得到词语冲突性特征,其中,所述目标特征信息包括所述词语冲突性特征。
3.根据权利要求2所述的方法,其特征在于,
采用多种方式确定相邻词向量之间的多个第一情绪对立参数包括:
采用获取所述相邻词向量之间的均值、哈达玛乘积、L1距离及L2距离的方式确定所述多个第一情绪对立参数;
融合所述多个第一情绪对立参数,得到所述相邻词向量之间的第二情绪对立参数包括:
获取所述第一神经网络模型学习到的第一权重参数,其中,所述第一权重参数是在采用所述训练数据训练得到所述第一神经网络模型的过程中针对所述多种方式训练达到的局部最优值;
将所述多个第一情绪对立参数与对应所述第一权重参数的乘积的和作为所述第二情绪对立参数;
利用所有所述第二情绪对立参数组成的矩阵确定所述待处理文本中各个词向量的注意力向量包括:
通过对所述矩阵进行最大池化运算确定所述注意力向量。
4.根据权利要求2所述的方法,其特征在于,采用多种方式提取所述待处理文本的目标特征信息还包括:
采用长短期记忆神经网络提取所述待处理文本的文本结构化特征,其中,所述目标特征信息包括所述文本结构化特征。
5.根据权利要求4所述的方法,其特征在于,根据第一神经网络模型对所述目标特征信息的识别结果确定所述待处理文本的文本类型包括:
将所述词语冲突性特征和/或所述文本结构化特征作为所述第一神经网络模型的输入;
获取所述第一神经网络模型输出的识别结果,其中,所述识别结果为指示所述待处理文本的所述文本类型的预测值;
在所述预测值大于预设阈值的情况下将所述待处理文本的所述文本类型确定为所述目标类型。
6.根据权利要求1至5中任意一项所述的方法,其特征在于,根据第一神经网络模型对所述目标特征信息的识别结果确定所述待处理文本的文本类型之前,所述方法还包括:
通过所述训练数据对所述第二神经网络模型内各网络层中的参数进行初始化,得到第三神经网络模型,其中,所述第二神经网络模型为全连接前馈神经网络模型;
在所述第三神经网络模型对测试数据的识别准确度达到目标阈值的情况下,将所述第三神经网络模型作为所述第一神经网络模型;
在所述第三神经网络模型对所述测试数据的识别准确度未达到所述目标阈值的情况下,继续使用所述训练数据对所述第三神经网络模型进行训练,以调整所述第三神经网络模型内各网络层中的参数的数值,直至所述第三神经网络模型对所述测试数据的识别准确度达到所述目标阈值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院自动化研究所;国家计算机网络与信息安全管理中心,未经中国科学院自动化研究所;国家计算机网络与信息安全管理中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010549951.X/1.html,转载请声明来源钻瓜专利网。