[发明专利]一种基于广义K均值算法的文本多标记学习方法在审

申请号：	201811349729.4	申请日：	2018-11-13
公开（公告）号：	CN109685103A	公开（公告）日：	2019-04-26
发明（设计）人：	曾理;王纯斌;赵神州;覃进学;蓝科	申请（专利权）人：	成都四方伟业软件股份有限公司
主分类号：	G06K9/62	分类号：	G06K9/62;G06F16/35
代理公司：	成都睿道专利代理事务所(普通合伙) 51217	代理人：	万利
地址：	610041 四川省***	国省代码：	四川;51
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了一种基于广义K均值算法的文本多标记学习方法，包括以下步骤：预处理原始文本，得到训练样本集和测试样本集；根据训练样本集初始化字典D⁰并随机挑选K个样本，通过KSVD算法逐列更新字典D⁰中的样本直到满足迭代停止条件，得到欠完备字典D并将欠完备字典D中的样本作为多标记学习的标记向量；计算样本在欠完备字典D上的稀疏编码，以编码向量非零值索引位置的对应样本为样本多标记学习分类结果，以向量非零值大小为标记权重，完成标记排序。本发明充分挖掘标记之间的相关性，效果符合人类直觉认知习惯，自然感强、可解释性好，降低了计算存储开销和“维度灾难”的发生频率；同时对样本异常、缺失具有鲁棒性。
搜索关键词：	样本字典多标记训练样本集均值算法非零预处理文本学习迭代停止条件测试样本集编码向量标记向量发生频率分类结果计算存储随机挑选索引位置稀疏编码原始文本标记权初始化解释性鲁棒性维度向量排序认知挖掘灾难更新
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种基于广义K均值算法的文本多标记学习方法，其特征在于：包括以下步骤：步骤一：预处理原始文本，得到训练样本集和测试样本集；步骤二：根据训练样本集初始化字典D⁰并随机挑选K个样本，通过KSVD算法逐列更新字典D⁰中的样本直到满足迭代停止条件，得到欠完备字典D并将欠完备字典D中的样本作为多标记学习的标记向量；步骤三：计算样本在欠完备字典D上的稀疏编码，以编码向量非零值索引位置的对应样本为样本多标记学习分类结果，以向量非零值大小为标记权重，完成标记排序。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于成都四方伟业软件股份有限公司，未经成都四方伟业软件股份有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201811349729.4/，转载请声明来源钻瓜专利网。

上一篇：胸部病灶图像分类方法、装置、计算机设备及存储介质
下一篇：一种识别模型的确定方法和装置

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于广义K均值算法的文本多标记学习方法在审

专利文献下载