[发明专利]一种基于主题模型的多标签分类框架方法在审

申请号：	201810470714.7	申请日：	2018-05-17
公开（公告）号：	CN108763361A	公开（公告）日：	2018-11-06
发明（设计）人：	吴骏;谭龙海;陆恒杨;徐鸣;张雷	申请（专利权）人：	南京大学
主分类号：	G06F17/30	分类号：	G06F17/30;G06F17/21
代理公司：	南京瑞弘专利商标事务所(普通合伙) 32249	代理人：	彭雄
地址：	210093 江***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了一种基于主题模型的多标签分类框架方法，包括如下步骤：1)标签文档生成阶段：a提取训练集标签集合；b生成新文档；2)获取标签文档‑主题分布阶段：a更新模型参数；b训练主题模型；3)标签文档‑主题分布离散化阶段：a获取主题概率最值；b离散化主题；4)预测测试实例主题阶段：a生成主题为标签的数据集；b预测测试实例主题；5)预测测试实例标签阶段：a组合属性主题；b预测测试实例标签。本发明能以较少的复杂度考虑了标签之间的关系，有效提高多标签分类预测效果。
搜索关键词：	标签标签分类主题模型预测文档测试主题分布离散化标签集合模型参数文档生成组合属性复杂度数据集训练集概率更新
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种基于主题模型的多标签分类框架方法，其特征在于，包括如下步骤：步骤1，标签文档生成阶段：提取训练集数据中每个实例对应的标签集合；根据标签集合各个标签得到标签名称，然后组成生成新文档；每个实例对应的标签集合为一个文档；步骤2，获取标签文档‑主题分布阶段；计算每个标签的频次相关属性值，将其乘比例系数加到主题建模时标签的先验参数中；根据更新后的参数值以及设定的主题数等参数训练主题模型，得到标签文档与主题的分布θ＝{θ1,θ2,…,θm}，m为训练集实例总数步骤3，标签文档‑主题分布离散化阶段：根据标签文档与主题的分布θ获取每个文档对应的主题分布的统计值；遍历主题分布的概率值，根据统计设置阈值，满足阈值则保留主题，不满足则去除步骤4，预测测试实例主题阶段：将每个文档保留的主题作为标签，组成以主题为标签的多标签分类数据集；使用多标签分类算法在多标签分类数据集中训练并预测测试实例主题；步骤5，预测测试实例标签阶段：将文档原来的属性和获取的主题合并成新的属性，与原标签组成多标签分类算法；对组成的多标签分类算法使用传统多标签分类算法预测测试实例标签。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于南京大学，未经南京大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201810470714.7/，转载请声明来源钻瓜专利网。

上一篇：一种分类方法及装置、计算机可读存储介质
下一篇：基于随机锚点对选择的局部模型加权融合Top-N电影推荐方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于主题模型的多标签分类框架方法在审

专利文献下载