[发明专利]标签确定方法、设备和存储介质有效
申请号: | 202011548347.1 | 申请日: | 2020-12-24 |
公开(公告)号: | CN112699237B | 公开(公告)日: | 2021-10-15 |
发明(设计)人: | 杨浩;刘昊;肖欣延;洪豆 | 申请(专利权)人: | 百度在线网络技术(北京)有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/901;G06F40/289;G06F40/30 |
代理公司: | 北京清亦华知识产权代理事务所(普通合伙) 11201 | 代理人: | 王萌 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 标签 确定 方法 设备 存储 介质 | ||
1.一种标签确定方法,包括:
获取待处理文章的有向图,其中,所述待处理文章包括多个分词,所述有向图包括多个节点以及节点之间的有向边,且所述多个节点分别与所述多个分词对应,所述有向边的方向从先出现的分词指向后出现的分词;
根据所述多个节点以及节点之间的有向边,确定所述有向图中所述多个节点的中介中心性;
根据所述多个节点的中介中心性,从所述多个节点中选择出目标节点,并将与所述目标节点所对应的目标分词添加到所述待处理文章的候选标签集合中;
根据预设的语义分析模型对所述多个分词在待处理文章的分布特征信息进行语义分析,以得到对应的类别标签;
根据所述候选标签集合和所述类别标签,确定出所述待处理文章对应的标签集合。
2.根据权利要求1所述的方法,其中,所述根据所述多个节点的中介中心性,从所述多个节点中选择出目标节点,包括:
按照中介中心性从大到小的顺序,对所述多个节点的中介中心性进行排序,以得到排序结果;
从排序结果中获取排序在前N位的节点作为目标节点,其中,N为大于或者等于1的整数。
3.根据权利要求1所述的方法,其中,所述语义分析模型包括注意力层、语义表示层以及语义分析层,所述根据预设的语义分析模型对所述多个分词在待处理文章的分布特征信息进行语义分析,以得到对应的类别标签,包括:
针对每个分词,获取所述分词在所述待处理文章的分布特征信息;
将所述分布特征信息输入到所述注意力层,以得到所述分词的注意力分数;
将所述注意力分数以及所述分词输入到语义表示层,以得到所述分词的语义表示;
通过所述语义分析层对所述多个分词的语义表示进行语义分析,以得到对应的类别标签。
4.根据权利要求1所述的方法,其中,所述根据所述候选标签集合和所述类别标签,确定出所述待处理文章对应的标签集合之前,所述方法还包括:
对所述待处理文章进行关键词提取,并将所提取到的关键词添加到所述候选标签集合中;和/或者
从所述待处理文章中获取与预设标签匹配的词语,并将匹配到的词语添加到所述候选标签集合中;和/或者
根据所述多个分词之间的相似度,对所述多个分词进行词语聚类,以及将词语聚类结果得到的标签添加到所述候选标签集合中。
5.根据权利要求1-4中任一项所述的方法,其中,所述候选标签集合包括M个候选标签,其中,M为大于1的整数,在所述根据所述候选标签集合和所述类别标签,确定出所述待处理文章对应的标签集合之前,所述方法还包括:
根据预设的语义匹配模型,分别对每个所述候选标签与所述待处理文章进行语义匹配,以得到每个所述候选标签与所述待处理文章之间的匹配程度;
根据所述匹配程度,对所述M个候选标签进行排序,以得到标签排序结果;
从所述标签排序结果中,获取排序在K位之后的第一候选标签,其中,K为大于或者等于1的整数,且所述K小于M;
删除所述候选标签集合中的第一候选标签。
6.根据权利要求1所述的方法,其中,所述将与所述目标节点所对应的目标分词添加到所述待处理文章的候选标签集合中之前,所述方法还包括:
将所述目标分词输入到预先训练的分类模型中,以得到所述目标分词的分类结果;
在根据所述分词结果确定所述目标分词符合语义标准的情况下,执行将所述目标分词添加到所述待处理文章的候选标签集合中的步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度在线网络技术(北京)有限公司,未经百度在线网络技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011548347.1/1.html,转载请声明来源钻瓜专利网。