[发明专利]粒子群优化的文本特征选择方法有效

专利信息
申请号: 201810315024.4 申请日: 2018-04-10
公开(公告)号: CN108664562B 公开(公告)日: 2019-10-01
发明(设计)人: 琚小明;王锋华;钱仲文;毛大鹏;吴翔;邢雅菲;张全;于晓蝶;夏洪涛;成敬周;王政;孙晨;王仲锋;吕旭芬;张旭东;张建松 申请(专利权)人: 华东师范大学;国网浙江省电力有限公司;浙江华云信息科技有限公司
主分类号: G06F16/35 分类号: G06F16/35;G06F17/27;G06K9/62
代理公司: 上海蓝迪专利商标事务所(普通合伙) 31215 代理人: 徐筱梅;张翔
地址: 200241 *** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种基于粒子群优化的文本特征选择方法,该方法是为了解决采用空间向量模型表示文本出现文本特征向量高维且稀疏的问题,本发明将局部搜索策略嵌入到粒子群优化算法中选择出不相关和显著的特征子集,通过考虑粒子群的相关信息来指导粒子群算法在搜索过程中选择不同的特征,从而从原始特征中选择出更加有利于分类准确率的特征。本发明能够从庞大文本词集中选择出最有利于文本表示的特征子集,从而能为文本的分类、文本处理打下良好的基础。
搜索关键词: 文本特征选择 粒子群优化 特征子集 文本 粒子群优化算法 空间向量模型 文本特征向量 分类准确率 粒子群算法 局部搜索 搜索过程 文本表示 文本处理 相关信息 原始特征 粒子群 文本词 高维 稀疏 嵌入 分类
【主权项】:
1.一种粒子群优化的文本特征选择方法,其特征在于,该方法包括以下具体步骤:1)用分词工具将文本集进行分词,将分词后的词语组成一个词集,作为文本集的原始特征,用T来表示特征集合,集合T中特征的个数为n,即T={t1,t2,...,tn};2)首先,利用式(1)计算特征ti同其他特征之间的平均关系距离Ri其中p(ti,tj)表示ti,tj共现的概率,即ti,tj共同出现在句子中的次数比上文本集所有词语的个数,p(ti)表示特征ti出现的概率,即特征ti出现的次数同文本集所有词语数量的比值;p(tj)表示特征tj出现的概率,即特征tj出现的次数同文本集所有词语数量的比值;Ri值越高表明该特征同其他特征的关系越大,Ri值越低表明该特征同其他特征越有区别;求得所有特征的R值后,将所有特征按照R值大小进行升序排序,排序后的特征前一半放入不相似组D,后一半放入相似组S中;3)设置总迭代次数iterations,并用k记录当前的迭代次数,测试随机生成数个二进制的粒子x即粒子的位置,并初始化每个粒子初速度vi,用xi和vi表示为第i个粒子的位置和速度,且都为m维的向量,每个维度的值都是介于(0,1)的随机数;4)根据式(2)来更新粒子的速度,并对更新之后的粒子速度每个维度值限定在(a,b),a和b是自定义参数,具体做法是用vid表示vi的第d维的值,若vid>b,则令vid=b,若vid<a,则令vid=a,其他情况vid不变;其中,用表示每个粒子自身经历过的最佳位置,表示种群粒子经历过的最佳位置,c1和c2是学习因子;r1和r2是[0,1]之间的随机数;由式(3)来更新粒子的位置,并对粒子每个维度值进行改变,具体做法是首先利用式(4)计算s(vid),s(vid)表示一个函数,其中e为自然常数,表示e的‑vid次方,然后s(vid)同随机数rand比较,若s(vid)>rand,则将xid=1,否则设为0,这里的xid表示粒子xi第d维的值;其中rand是随机初始化的一个值;xi=xi+vi    (3)5)根据步骤4),得到粒子xi位置的每个维度值为0或1;由于粒子xi每个维度与特征集合T的特征的对应,根据xi的维度值为1的位置,得到特征子集T′,根据相似特征集合S和不相似特征集D,将T′划分为不相似特征子集D′,以及相似特征子集S′;对粒子中的相似特征和不相似特征的数量进行控制,定义参数α,令nD′=α·n,nS′=(1‑α)n,nD′为不相似特征子集D′特征个数的下限,nS′是相似特征子集S′特征个数的上限;当D′中特征的个数小于nD′时,随机挑选D中的特征到D′,直到D′中个数达到nD′,并更新xi,即将xi中对应的维度值修改为1;同理,当S′中特征的个数大于nS′时,随机S′中特征剔除,直到S′中个数达到nS′,并更新xi,即将xi中对应的维度值修改为0;由上操作,得到更新之后的xi,以及更新之后的T′;6)利用xi所表示特征子集集合T′,用空间向量模型表示文本训练KNN分类器,并计算出分类的准确率将特征选择的适应度函数定义为文本分类的准确率:其中,N表示测试文本集中包含的总样本数,nacc正确分类的测试文本数;7)利用步骤6),根据计算粒子所表示的特征子集用于分类的准确率fibest以及8)对进行更新;如果fi>fibest,则如果9)判断当前的迭代次数k是不是小于iteration,若是则跳转到步骤4),否则结束,并输出10)根据中位置的特征所组成的集合得到最优特征子集。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华东师范大学;国网浙江省电力有限公司;浙江华云信息科技有限公司,未经华东师范大学;国网浙江省电力有限公司;浙江华云信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201810315024.4/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top