[发明专利]文档多标签分类方法和装置在审

专利信息
申请号: 202011077236.7 申请日: 2020-10-10
公开(公告)号: CN112183655A 公开(公告)日: 2021-01-05
发明(设计)人: 刘含;袁彩霞;王小捷;冯方向;鲁鹏;刘咏彬 申请(专利权)人: 北京邮电大学
主分类号: G06K9/62 分类号: G06K9/62;G06F40/30;G06F40/216;G06F16/35
代理公司: 北京德琦知识产权代理有限公司 11018 代理人: 孙清然;王琦
地址: 100876 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 文档 标签 分类 方法 装置
【权利要求书】:

1.一种文档多标签分类方法,其特征在于,包括:

当需要对文档进行多标签分类时,对于预设数据集的标签集合中的每个标签,利用多标签分类模型中该标签对应的第一标签相关编码器和第二标签相关编码器,分别对所述文档采用注意力加权的方式进行编码,并将该标签对应的所述编码结果进行拼接;其中,所述第一标签相关编码器和所述第二标签相关编码器预先利用基于标签对比机制构建的样本集合训练得到;

拼接所有标签的所述拼接的结果,得到所述文档的编码向量;

利用所述多标签分类模型的全连接层和逻辑斯蒂函数,根据所述编码向量,对所述文档进行多标签分类,并利用多标签分类结果,对所述多标签分类模型进行参数调整。

2.根据权利要求1所述的方法,其特征在于,所述方法进一步包括:

预先对于所述标签集合中的每个标签,训练该标签对应的所述第一标签相关编码器和所述第二标签相关编码器,包括:

a、从所述数据集中选择一个文档作为中心文档;

b、从所述中心文档的标签集合s中,选择一个标签k;

c、从所述数据集中除所述中心文档之外的其他文档中,选择一个具有所述标签k的文档作为正样本,并选择若干不具有所述标签k的文档为负样本,将所述正样本和所述负样本设置为所述标签k的候选文档;

d、对于所述中心文档,利用预设的预训练模型中所述标签k对应的所述第一标签相关编码器,采用注意力加权的方式进行编码,得到所述中心文档的与所述标签k相关的编码结果Qk-tar

e、对于每个所述候选文档,利用所述预训练模型中所述标签k对应的所述第二标签相关编码器,采用注意力加权的方式进行编码,得到该候选文档的与所述标签k相关的编码结果Qk-cand,并根据所述编码结果Qk-tar和所述编码结果Qk-cand,计算该候选文档与所述中心文档的相似度并进行归一化处理,得到该候选文档的选择概率;

f、利用所述标签k对应的所有候选文档的所述选择概率,以所述正样本为分类目标,对所述预训练模型进行参数调整;

g、如果当前对所述预训练模型的参数调整次数小于预设的训练次数阈值或者所述标签集合中存在未被选择的标签,则返回步骤a。

3.根据权利要求1或2所述的方法,其特征在于,所述采用注意力加权的方式进行编码包括:

对于待编码的文档Di,生成该文档的文本编码;

根据所述文档Di的长度,确定当前的相似度匹配单位;所述相似度匹配单位为词或句子;

对于所述文档Di中的每个相似度匹配单位,计算该相似度匹配单位与预设语义向量的相似度,将该相似度作为权值和该相似度匹配单位对应的文本编码相乘,得到该相似度匹配单位的加权编码向量;所述语义向量为当前编码所用标签相关编码器所对应标签的语义向量;

对所述文档Di中所有相似度匹配单位的所述加权编码向量,进行求和,得到所述文档Di的与所述标签k相关的编码结果。

4.根据权利要求3所述的方法,其特征在于,所述根据所述文档Di的长度,确定当前的相似度匹配单位包括:

如果所述文档Di中的词数量小于预设阈值,则将当前的相似度匹配单位设置为词,否则,将当前的相似度匹配单位设置为句子。

5.一种文档多标签分类装置,其特征在于,包括:

编码处理模块,用于当需要对文档进行多标签分类时,对于预设数据集的标签集合中的每个标签,利用多标签分类模型中该标签对应的第一标签相关编码器和第二标签相关编码器,分别对所述文档采用注意力加权的方式进行编码,并将该标签对应的所述编码结果进行拼接;其中,所述第一标签相关编码器和所述第二标签相关编码器预先利用基于标签对比机制构建的样本集合训练得到;用于拼接所有标签的所述拼接的结果,得到所述文档的编码向量;

分类模块,用于利用所述多标签分类模型的全连接层和逻辑斯蒂函数,根据所述编码向量,对所述文档进行多标签分类,并利用多标签分类结果,对所述多标签分类模型进行参数调整。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京邮电大学,未经北京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202011077236.7/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top