[发明专利]文本信息处理方法、装置、设备和介质在审
申请号: | 202111331684.X | 申请日: | 2021-11-11 |
公开(公告)号: | CN113935334A | 公开(公告)日: | 2022-01-14 |
发明(设计)人: | 范晓东 | 申请(专利权)人: | 工银科技有限公司;中国工商银行股份有限公司 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F40/289;G06F40/211;G06N3/04 |
代理公司: | 中科专利商标代理有限责任公司 11021 | 代理人: | 樊晓 |
地址: | 071700 河北省保定市中国(河北)自由贸易试验*** | 国省代码: | 河北;13 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 信息处理 方法 装置 设备 介质 | ||
本公开提供了一种文本信息处理方法、装置、设备、介质和程序产品,可以应用于人工智能技术领域。该文本信息处理方法包括:从待处理文本信息中提取多个关键词信息与多个句子信息;基于多个关键词信息与多个句子信息,生成关键词关联信息,其中,关键词关联信息用于表征不同的关键词信息之间的关联属性;基于多个关键词信息与多个句子信息,确定与每个关键词信息关联的句子信息;将多个关键词信息、与每个关键词信息关联的句子信息以及关键词关联信息输入第一神经网络,输出关键词特征信息,其中,关键词特征信息用于表征待处理文本的语义特征。本公开还提供了一种文本信息处理装置、设备、存储介质和程序产品。
技术领域
本公开涉及人工智能领域,具体地涉及一种文本信息处理方法、装置、设备、介质和程序产品。
背景技术
随着法规、规范或标准的发布,相关组织或机构需要依据最新发布的法规或规范修改内部的管理制度,以保证内部的管理制度符合最新发布的相关法规或规范。
在实现本公开构思的过程中,发明人发现相关技术中至少存在以下技术问题:针对法规、规范、标准或内部管理制度等文本信息的所提取的语义特征存在片面性,语义理解准确度较低。
发明内容
鉴于上述问题,本公开提供了提高语义理解准确度的文本信息处理方法、装置、设备、介质和程序产品。
根据本公开的第一个方面,提供了一种文本信息处理方法,包括:
从待处理文本信息中提取多个关键词信息与多个句子信息;
基于多个上述关键词信息与多个上述句子信息,生成关键词关联信息,其中,上述关键词关联信息用于表征不同的上述关键词信息之间的关联属性;
基于多个上述关键词信息与多个上述句子信息,确定与每个上述关键词信息关联的句子信息;
将多个上述关键词信息、与每个上述关键词信息关联的句子信息以及上述关键词关联信息输入第一神经网络,输出关键词特征信息,其中,上述关键词特征信息用于表征上述待处理文本的语义特征。
根据本公开的实施例,上述第一神经网络包括:门循环神经网络层与图卷积神经网络层;
将多个上述关键词信息、与每个上述关键词信息关联的句子信息以及上述关键词关联信息输入第一神经网络,输出关键词特征信息包括:
将多个上述关键词信息,以及与每个上述关键词信息关联的句子信息输入上述门循环神经网络层,以便将上述句子信息中的语义特征融合至与上述句子信息关联的关键词信息中,得到多个融合关键词信息;
将多个上述融合关键词信息与上述关键词关联信息输入上述图卷积神经网络层,以便将不同的上述关键词信息之间的关联属性与多个上述融合关键词信息融合,输出上述关键词特征信息。
根据本公开的实施例,基于多个上述关键词信息与多个上述句子信息,生成关键词关联信息包括:
基于多个上述关键词信息中,每两个不同的上述关键词信息在上述句子信息中出现的次数,生成关键词关联信息。
根据本公开的实施例,基于多个上述关键词信息与多个上述句子信息,确定与每个上述关键词信息关联的句子信息包括:
基于上述关键词信息与上述句子信息的相似度,确定与每个上述关键词信息关联的句子信息。
根据本公开的实施例,上述待处理文本信息包括第一类待处理文本信息与第二类待处理文本信息,上述第一类待处理文本信息的关键词特征信息包括第一关键词特征信息,上述第二类待处理文本信息的关键词特征信息包括第二关键词特征信息;
上述文本信息处理的方法还包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于工银科技有限公司;中国工商银行股份有限公司,未经工银科技有限公司;中国工商银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111331684.X/2.html,转载请声明来源钻瓜专利网。