[发明专利]基于图注意力机制的专利多层级分类方法及计算机设备有效
申请号: | 202310132411.5 | 申请日: | 2023-02-20 |
公开(公告)号: | CN115858793B | 公开(公告)日: | 2023-05-09 |
发明(设计)人: | 徐青伟;严长春;裴非;范娥媚;蔡明睿 | 申请(专利权)人: | 知呱呱(天津)大数据技术有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/166;G06F40/169;G06F40/194;G06F40/284;G06F40/216;G06N3/0499;G06N3/047;G06N3/09 |
代理公司: | 北京华清科睿知识产权代理事务所(普通合伙) 11989 | 代理人: | 朱红涛 |
地址: | 300221 天津市河西*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 注意力 机制 专利 多层 分类 方法 计算机 设备 | ||
本申请公开了一种基于图注意力机制的专利多层级分类方法及计算机设备。该方法首先通过专利文本片段分割以及标签定义提取,生成专利文本树形结构和标签定义树形结构;然后通过节点文本相似度计算,查找相似向量,在对应节点之间添加边;再利用注意力机制得到节点的编码向量;最后,把编码向量输入到神经网络中,得到预测结果。本申请充分利用了专利文档的固有结构和标签定义的层次化关系的先验知识,以图注意力机制的模式编码文本和标签之间的交互关系,解决了现有技术的缺乏精细化信息利用的缺陷,提升了专利标签分类的准确率,达到解放人力、降本增效的目的。
技术领域
本申请属于文献分类技术领域,具体涉及一种参考规范标准(如IPC分类等)对专利文献进行自动分类的方法。
背景技术
专利作为衡量国家创新能力的重要文献,是发现先进技术的重要途径。中国在知识产权的保护力度上取得巨大进步,显著体现在专利数量的迅速增长。根据国家知识产权局公布的数据,2021年全年共授权发明专利69.6万件,每万人口高价值发明专利拥有量达到7.5件。在世界知识产权组织发布的《2021年全球创新指数报告》中,中国排名位居全球第12位,连续9年稳步提升。专利文献数量的快速增长大大加重了人工分类的工作量,小规模机器学习的分类方法的准确性也很难满足当前需求。因此,如何从快速准确地从大量专利申请中识别出专利所属技术类别成为目前的一项重要研究内容。
目前常见的专利分类方法一般基于专利文本实现,有些结合标签、发明人网络、权利人网络等专利节点特征实现,例如中国专利文献CN113468291A公开了一种基于专利网络表示学习的专利自动分类方法,其利用专利的文本内容、发明人信息与专利权人信息各自构造语义视图网络、发明人视图网络与专利权人视图网络,结合不同视图网络之间的相关性对专利节点表征向量进行增强,再通过注意力机制将增强后的三个视图网络的专利节点表征向量进行融合,将融合结果作为最终的专利节点表征向量并进行分类预测,以提升专利分类结果的准确率。然而,这类优化的分类方法,在专利领域专业性强、结构关系复杂场景下的自动分类效果并不理想。
发明人认识到,现有技术没有充分利用专利文本和标签的内部组成部分及关联结构信息,导致专利分类准确率整体不高。具体来说:
现有专利分类方法是将文本作为一个整体进行模型训练和预测,没有充分利用专利中已有的标题、摘要、权利要求书、说明书及其内部组成部分之间的固有结构知识,缺乏对于标签定义的层次化结构及其与专利文本各部分之间的关联关系的有效使用(例如前述文献CN113468291A介绍的结合外部发明人网络、权利人网络等外部结构信息的专利分类方法,就没有深入挖掘和充分利用专利和标签本身的内部结构和关联关系),导致专利领域专业性强、结构关系复杂场景下的自动分类效果不佳。
发明内容
本申请提供了一种基于图注意力机制的专利多层级分类方法及计算机设备,解决了现有技术缺乏精细化信息利用的缺陷,提升了专利标签分类的准确率。
为了实现以上目的,本申请给出以下解决方案:
基于图注意力机制的专利多层级分类方法,包括:
步骤S1、获取待分类专利文本,根据专利文本的格式规范分割篇章及段落,再将各段落内部文本拆分为句子,根据所述格式规范以及句子之间的关联关系构建专利文本树形数据结构;
步骤S2、基于所述专利文本树形数据结构和预先构建的标签定义树形数据结构,构建统一的图结构,并通过相似度计算,将专利文本的篇章、段落及句子对应的节点与标签定义对应的节点进行关联标记;所述标签定义树形数据结构是根据专利分类标准规范及其层次化关系构建得到,每一层级的每个分类号分别作为一个标签;
步骤S3、图注意力机制编码:基于所述统一的图结构的邻接关系,应用注意力机制对节点进行统一编码,得到节点的特征向量;
步骤S4、将待分类专利文本的所有节点的特征向量输入到预先构建并完成训练的全连接神经网络分类器中,输出专利分类的预测结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于知呱呱(天津)大数据技术有限公司,未经知呱呱(天津)大数据技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310132411.5/2.html,转载请声明来源钻瓜专利网。