[发明专利]基于图注意力机制的专利多层级分类方法及计算机设备有效
申请号: | 202310132411.5 | 申请日: | 2023-02-20 |
公开(公告)号: | CN115858793B | 公开(公告)日: | 2023-05-09 |
发明(设计)人: | 徐青伟;严长春;裴非;范娥媚;蔡明睿 | 申请(专利权)人: | 知呱呱(天津)大数据技术有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/166;G06F40/169;G06F40/194;G06F40/284;G06F40/216;G06N3/0499;G06N3/047;G06N3/09 |
代理公司: | 北京华清科睿知识产权代理事务所(普通合伙) 11989 | 代理人: | 朱红涛 |
地址: | 300221 天津市河西*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 注意力 机制 专利 多层 分类 方法 计算机 设备 | ||
1.基于图注意力机制的专利多层级分类方法,其特征在于,包括:
步骤S1、获取待分类专利文本,根据专利文本的格式规范分割篇章及段落,再将各段落内部文本拆分为句子,根据所述格式规范以及句子之间的关联关系构建专利文本树形数据结构;
步骤S2、基于所述专利文本树形数据结构和预先构建的标签定义树形数据结构,构建统一的图结构,专利文本的每一篇章、每一段落及每一句子分别对应图结构中的一个节点;并通过相似度计算,将专利文本的篇章、段落及句子对应的节点与标签定义对应的节点进行关联标记;所述标签定义树形数据结构是根据专利分类标准规范及其层次化关系构建得到,每一层级的每个分类号分别作为一个标签;
步骤S3、图注意力机制编码:基于所述统一的图结构的邻接关系,应用注意力机制对节点进行统一编码,得到节点的特征向量;
步骤S4、将待分类专利文本的所有节点的特征向量输入到预先构建并完成训练的全连接神经网络分类器中,输出专利分类的预测结果。
2.根据权利要求1所述的基于图注意力机制的专利多层级分类方法,其特征在于,所述标签定义树形数据结构的构建方法包括:
获取专利分类标准规范文档;
读取文档,得到标签以及对应的定义;
对各个标签的定义文本进行清洗、转换、补全和/或合并处理;
根据标签定义的层次化关系生成标签定义树形数据结构。
3.根据权利要求1所述的基于图注意力机制的专利多层级分类方法,其特征在于,所述专利分类标准规范为国际专利分类、欧洲专利分类、美国专利分类或日本专利分类。
4.根据权利要求1所述的基于图注意力机制的专利多层级分类方法,其特征在于,记专利文本树形数据结构为Ttext=(Vtext,Etext),其中Vtext表示专利文本树形数据结构的顶点集合,Etext表示专利文本树形数据结构的边集合;记标签定义树形数据结构为Tlabel=(Vlabel,Elabel),其中Vlabel为标签定义树形数据结构的顶点集合,Elabel为标签定义树形数据结构的边集合;则步骤S2具体包括:
将Ttext和Tlabel合并为图G=(V,E),其中,V=Vtext∪Vlabel表示图的顶点集合,E=Etext∪Elabel表示图的边集合;
计算图中节点所对应的文本相似度,如果图中专利文本树形数据结构的节点与标签定义树形数据结构的节点所对应的文本相似度超过设定阈值,则通过在这两个节点之间添加一条边实现所述关联标记。
5.根据权利要求4所述的基于图注意力机制的专利多层级分类方法,其特征在于,所述计算图中节点所对应的文本相似度包括分别基于VSM的相似度计算和基于Bert预训练模型的相似度计算,只要VSM和Bert预训练模型任一计算出的相似度大于0.9,则在对应节点之间添加一条边。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于知呱呱(天津)大数据技术有限公司,未经知呱呱(天津)大数据技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310132411.5/1.html,转载请声明来源钻瓜专利网。