[发明专利]一种专利文本多标签分类方法有效
申请号: | 202111455951.4 | 申请日: | 2021-12-02 |
公开(公告)号: | CN113849655B | 公开(公告)日: | 2022-02-18 |
发明(设计)人: | 李辉;马勇;钱辉;徐凡;曾锦山 | 申请(专利权)人: | 江西师范大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/30;G06K9/62;G06N3/04 |
代理公司: | 南昌金轩知识产权代理有限公司 36129 | 代理人: | 石英 |
地址: | 330022 *** | 国省代码: | 江西;36 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 专利 文本 标签 分类 方法 | ||
1.一种专利文本多标签分类方法,其特征在于,包括:
S1预处理输入数据得到IPC标签描述数据集和包含专利文本的训练集;
S2将所述IPC标签描述数据集中的所有IPC标签向量化得到第一标签表示矩阵;
S3根据所述训练集中IPC标签的共现关系得到标签关联矩阵;
S4根据所述第一标签表示矩阵,将所述训练集中IPC标签向量化得到第二标签表示矩阵;
S5将所述第二标签表示矩阵、标签关联矩阵输入到图神经网络中得到融合标签关联信息的第三标签表示矩阵;
S6提取专利文本特征得到文本特征编码表示E;
S7将所述文本特征编码表示E与所述第三标签表示矩阵进行矩阵乘法运算得到标签分数矩阵,将所述标签分数矩阵输入到激活层得到每个标签的概率;
S8将所有概率大于设定阈值x的标签预测序列作为多标签分类结果;
S9将所述标签预测序列与训练集中对应文本的原始标签序列代入损失函数中计算误差,并利用反向传播算法优化模型参数,并保存参数优化后的模型;
S10待分类专利文本经过S5-S8得到多标签分类结果;
所述IPC标签描述数据集,格式为{IPC标签,标签描述};
所述训练集的格式为{IPC标签,专利文本};
所述输入数据包括IPC描述数据和专利数据,其中,IPC描述数据包括不同层级的IPC标签及对应的标签描述;专利数据包括专利IPC标签、标题、摘要、权利要求和说明书。
2.如权利要求1所述的一种专利文本多标签分类方法,其特征在于,所述S1预处理输入数据得到IPC标签描述数据集和包含专利文本的训练集,包括:
选择用于多标签分类的IPC标签层级、专利文本小节;
根据所述IPC标签层级对输入的IPC描述数据进行数据清洗得到IPC标签描述数据集;
根据所述IPC标签层级、专利文本小节对输入的专利数据进行数据清洗、抽取得到专利文本的训练集;
所述IPC标签层级为部、大类、小类、大组、小组中的任意一个;
所述专利文本小节为标题、摘要、权利要求书、说明书中的任意一个或多个的组合。
3.如权利要求2所述的一种专利文本多标签分类方法,其特征在于,所述对输入的IPC描述数据进行数据清洗,包括:
删除IPC描述中的与其他类别区分的注释、版本信息;
根据所述IPC标签层级,将IPC标签层级之前的IPC标签对应的标签描述进行叠加形成更长的文字描述作为标签描述。
4.如权利要求3所述的一种专利文本多标签分类方法,其特征在于,所述对输入的专利数据进行数据清洗、抽取,包括:
使用中文停用词表和自定义词典去除专利文本中的停用词;
根据所述专利文本小节从标题、摘要、权利要求和说明书选择出用于多标签分类的文本内容;
将IPC标签与所述IPC标签层级进行对齐得到与所述IPC标签层级一致的IPC标签。
5.如权利要求4所述的一种专利文本多标签分类方法,其特征在于,所述S2将所述IPC标签描述数据集中的所有IPC标签向量化得到第一标签表示矩阵,包括:
使用预训练语言模型将所述IPC标签描述数据集中所有IPC标签对应的标签描述进行向量表示得到第一标签表示矩阵。
6.如权利要求5所述的一种专利文本多标签分类方法,其特征在于,所述标签关联矩阵,还可以将对角线数值化为1。
7.如权利要求6所述的一种专利文本多标签分类方法,其特征在于,所述图神经网络,为图卷积网络或图注意力网络。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江西师范大学,未经江西师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111455951.4/1.html,转载请声明来源钻瓜专利网。