[发明专利]一种基于贪心策略和启发式算法搜索候选类别的方法在审
申请号: | 201310405219.5 | 申请日: | 2013-09-06 |
公开(公告)号: | CN103488707A | 公开(公告)日: | 2014-01-01 |
发明(设计)人: | 何力;贾焰;杨树强;周斌;韩伟红;李爱平;韩毅;李莎莎;丁兆云 | 申请(专利权)人: | 中国人民解放军国防科学技术大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京科亿知识产权代理事务所(普通合伙) 11350 | 代理人: | 汤东凤 |
地址: | 410073 湖南*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开的基于贪心策略和启发式算法搜索候选类别的方法,属于互联网技术领域,用以于大规模层次分类问题中搜索出包含待分类文档真实类别的候选类别,它采用评价指标Vk对搜索出的候选类别进行量化评价,且采用贪心策略和启发式算法得出最大的评价指标Vk值,并求出具有最大Vk值的特征权重矩阵G,进而,准确地搜索出候选类别,且经验证本发明提供的基于贪心策略和启发式算法搜索候选类别的方法搜索的候选类别集合较已有方法在准确率上提高了大约7.5%。 | ||
搜索关键词: | 一种 基于 贪心 策略 启发式 算法 搜索 候选 类别 方法 | ||
【主权项】:
1.一种基于贪心策略和启发式算法搜索候选类别的方法,用以从测试文档中搜索出候选类别,其特征在于,其包括以下步骤:步骤S01、输入已知信息:提供样本集合I={d1,d2,...,dn},特征集合F={f1,f2,...fm},类别集合L={l1,l2,...lr};步骤S02、初始化评价指标Vk及特征权重矩阵G:采用词频向量初始化类别的特征权重矩阵G,通过统计每个词在同一类别li所有文档中的出现次数得到该类别的词频向量,从而,为每个类别li建立一个词频向量wi,wij为特征fj关于类别li的权重,并对词频向量进行标准化,使得每个词频向量wi满足通过对样本集合I进行一次遍历即可生成初始类别的特征权重矩阵G={w1,w2,...,wi...wr}T,并计算出初始评价指标Vk值;步骤S03、采用贪心策略和启发式算法更新评价指标Vk及特征权重矩阵G,并求出具有最大Vk值的特征权重矩阵G,具体包括以下步骤:S031、启发式优化解:采用步骤S02求得的初始类别的特征权重矩阵G依次对每个样本文本d进行候选搜索测试,计算样本文本d的候选类别集合E(d),如果即当前解不能正确搜索到样本文本d的候选类别,则按照权重更新方法Correct-Error(c,d)更新G,通过运行Correct-Error(c,d),可以保证c∈E(d),即通过执行该更新算法,使当前样本文本能够被正确地搜索到其候选类别,其中,Correct-Error包括三步:(1)计算样本最大类别相关性得分(score(d)max)和样本类别相关性得分(scorec(d))之差Δ=score(d)max-scorec(d);(2)计算样本类别的每个特征值的并用g(Δ,tj)对样本类别的特征向量进行更新wcj’=wcj+g(Δ,tj);(3)对更新后的向量进行标准化其中,所述类别相关性得分采用内积或者余弦相似度计算,采用词频向量〈t1,t2,...tm〉表示样本文本d,d的真实类别为c,d关于类别c的相似性得分为scorec,d在所有类别L={l1,l2,...lr}中的最高的相似性得分为scoremax,Δ是二者的分差,g(Δ,tj)是更新wcj时的增加量,ρ是调节因子且默认取值为1;S032、迭代终止判定:在每次遍历整个样本集合I之后计算Vk,如果得到了一个可接受的解Vk即该Vk大于或等于一常数,或者迭代次数达到设定上限值,则迭代终止;步骤S04、根据步骤S03得出的最大Vk值的特征权重矩阵G,计算出相应的候选类别集合,即为要找到候选类别集合;其中,其中,|I|为样本总数,Vk(di)可根据以下算出:对于候选搜索算法Γ和测试文档d,由算法Γ搜索的候选类别集合为E,假设E的大小为k,对于单标签分类问题,如果E包含d的真实类别,则Vk(d)=1,否则为0;对于多标签分类问题,如果E中包含a个d的真实类别,则Vk(d)=a/ld,其中,ld是d的真实类别数目。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军国防科学技术大学,未经中国人民解放军国防科学技术大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201310405219.5/,转载请声明来源钻瓜专利网。