[发明专利]一种基于主题模型的多标签分类框架方法在审
申请号: | 201810470714.7 | 申请日: | 2018-05-17 |
公开(公告)号: | CN108763361A | 公开(公告)日: | 2018-11-06 |
发明(设计)人: | 吴骏;谭龙海;陆恒杨;徐鸣;张雷 | 申请(专利权)人: | 南京大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/21 |
代理公司: | 南京瑞弘专利商标事务所(普通合伙) 32249 | 代理人: | 彭雄 |
地址: | 210093 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于主题模型的多标签分类框架方法,包括如下步骤:1)标签文档生成阶段:a提取训练集标签集合;b生成新文档;2)获取标签文档‑主题分布阶段:a更新模型参数;b训练主题模型;3)标签文档‑主题分布离散化阶段:a获取主题概率最值;b离散化主题;4)预测测试实例主题阶段:a生成主题为标签的数据集;b预测测试实例主题;5)预测测试实例标签阶段:a组合属性主题;b预测测试实例标签。本发明能以较少的复杂度考虑了标签之间的关系,有效提高多标签分类预测效果。 | ||
搜索关键词: | 标签 标签分类 主题模型 预测 文档 测试 主题分布 离散化 标签集合 模型参数 文档生成 组合属性 复杂度 数据集 训练集 概率 更新 | ||
【主权项】:
1.一种基于主题模型的多标签分类框架方法,其特征在于,包括如下步骤:步骤1,标签文档生成阶段:提取训练集数据中每个实例对应的标签集合;根据标签集合各个标签得到标签名称,然后组成生成新文档;每个实例对应的标签集合为一个文档;步骤2,获取标签文档‑主题分布阶段;计算每个标签的频次相关属性值,将其乘比例系数加到主题建模时标签的先验参数中;根据更新后的参数值以及设定的主题数等参数训练主题模型,得到标签文档与主题的分布θ={θ1,θ2,…,θm},m为训练集实例总数步骤3,标签文档‑主题分布离散化阶段:根据标签文档与主题的分布θ获取每个文档对应的主题分布的统计值;遍历主题分布的概率值,根据统计设置阈值,满足阈值则保留主题,不满足则去除步骤4,预测测试实例主题阶段:将每个文档保留的主题作为标签,组成以主题为标签的多标签分类数据集;使用多标签分类算法在多标签分类数据集中训练并预测测试实例主题;步骤5,预测测试实例标签阶段:将文档原来的属性和获取的主题合并成新的属性,与原标签组成多标签分类算法;对组成的多标签分类算法使用传统多标签分类算法预测测试实例标签。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京大学,未经南京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810470714.7/,转载请声明来源钻瓜专利网。