[发明专利]基于标签树的模型训练、文本标签确定方法及装置在审

专利信息
申请号: 202010884803.3 申请日: 2020-08-28
公开(公告)号: CN112015898A 公开(公告)日: 2020-12-01
发明(设计)人: 潘寅旭;崔恒斌;谢杨易 申请(专利权)人: 支付宝(杭州)信息技术有限公司
主分类号: G06F16/35 分类号: G06F16/35;G06F16/33
代理公司: 北京亿腾知识产权代理事务所(普通合伙) 11309 代理人: 陈霁;周良玉
地址: 310000 浙江省杭州市*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 标签 模型 训练 文本 确定 方法 装置
【说明书】:

本说明书实施例提供一种基于标签树的模型训练、文本标签确定方法及装置。在模型训练中,对标签集中的实标签进行分层聚类,基于聚类结果生成第一标签树,其中的叶节点对应于实标签,干节点被对应于定义的虚标签;获取基于训练集和虚标签构建的异构关系网络,其中包括文本节点、标签节点和分词节点以及它们之间的连接边;从异构关系网络中查找符合预设格式的多组元路径;将多组元路径输入预先训练的图嵌入模型,得到多个实标签和多个虚标签分别对应的更新特征;将更新特征对应地确定为第一标签树中若干个节点的特征,得到第二标签树;基于训练集对第二标签树对应的文本分类模型进行训练。

技术领域

本说明书一个或多个实施例涉及自然语言处理技术领域,尤其涉及基于标签树的模型训练、文本标签确定方法及装置。

背景技术

文本分类是按照一定的分类标准,确定文本的归属分类的过程。文本分类在自然语言处理和文本挖掘等应用领域具有非常重要的意义。多标签文本分类,是确定一段文本在多个分类标签中属于哪些分类的过程,其可以应用于新闻报道分类和用户咨询业务分类等常见中。例如,分类标签包括5个,运动、旅游、读书、工作、美食和娱乐,针对某个新闻报道,可以从这5个分类标签中确定该新闻报道属于哪些分类,例如属于娱乐、美食和旅游这3个标签,则可以为该新闻报道打上这3个标签,以便于归档和搜索等处理。

随着对神经网络研究的不断深入,多标签文本分类的应用范围也越来越广泛。在某些应用领域中,分类标签的数量可能会非常多,达到百、万、甚至百万量级,这称为大规模多标签分类。大规模多标签分类多应用在新闻文档标签生成、内容推荐等场景。如何能在大规模多标签分类场景下,更快速、更准确地确定一段文本对应的多个标签,是目前研究的一个热点。

因此,希望能有改进的方案,可以更加快速、更加准确地确定文本在大规模多标签分类中的文本标签。

发明内容

本说明书一个或多个实施例描述了基于标签树的模型训练、文本标签确定方法及装置,以更加快速、更加准确地确定文本在大规模多标签分类中的文本标签。具体的技术方案如下。

第一方面,实施例提供了一种基于标签树的文本分类模型训练方法,通过计算机执行,包括:

获取训练集,其中包括多个文本和对应标注的实标签,文本包括若干个分词,所述训练集中多个种类的实标签构成标签集;

对所述标签集中的实标签进行分层聚类,基于聚类结果生成第一标签树,其中的叶节点对应于实标签,干节点被对应于定义的虚标签;

获取基于所述训练集和虚标签构建的异构关系网络,其中至少包括:用于表示文本的文本节点,用于表示标签的标签节点,用于表示分词的分词节点,且具备关联关系的不同类型节点之间建立有连接边,所述标签包括实标签和虚标签;

从所述异构关系网络中查找符合预设格式的多组元路径,所述预设格式包括:元路径中包括的标签节点与标签节点之间通过不同类型的节点连接;

将多组元路径输入预先训练的图嵌入模型,通过所述图嵌入模型确定多个实标签和多个虚标签分别对应的更新特征;

将所述更新特征对应地确定为所述第一标签树中若干个节点的特征,得到第二标签树;基于所述训练集对所述第二标签树对应的文本分类模型进行训练。

在一种实施方式中,所述对所述标签集中的实标签进行分层聚类,基于聚类结果生成第一标签树的步骤,包括:

针对所述标签集中的任意一个实标签,基于所述训练集中该实标签对应的多个文本,确定该实标签的初始特征;

基于多个实标签的初始特征,对多个实标签进行分层聚类,并基于聚类结果生成第一标签树。

在一种实施方式中,构建异构关系网络包括:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于支付宝(杭州)信息技术有限公司,未经支付宝(杭州)信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010884803.3/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top