[发明专利]粒子群优化的文本特征选择方法有效
申请号: | 201810315024.4 | 申请日: | 2018-04-10 |
公开(公告)号: | CN108664562B | 公开(公告)日: | 2019-10-01 |
发明(设计)人: | 琚小明;王锋华;钱仲文;毛大鹏;吴翔;邢雅菲;张全;于晓蝶;夏洪涛;成敬周;王政;孙晨;王仲锋;吕旭芬;张旭东;张建松 | 申请(专利权)人: | 华东师范大学;国网浙江省电力有限公司;浙江华云信息科技有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F17/27;G06K9/62 |
代理公司: | 上海蓝迪专利商标事务所(普通合伙) 31215 | 代理人: | 徐筱梅;张翔 |
地址: | 200241 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本特征选择 粒子群优化 特征子集 文本 粒子群优化算法 空间向量模型 文本特征向量 分类准确率 粒子群算法 局部搜索 搜索过程 文本表示 文本处理 相关信息 原始特征 粒子群 文本词 高维 稀疏 嵌入 分类 | ||
本发明公开了一种基于粒子群优化的文本特征选择方法,该方法是为了解决采用空间向量模型表示文本出现文本特征向量高维且稀疏的问题,本发明将局部搜索策略嵌入到粒子群优化算法中选择出不相关和显著的特征子集,通过考虑粒子群的相关信息来指导粒子群算法在搜索过程中选择不同的特征,从而从原始特征中选择出更加有利于分类准确率的特征。本发明能够从庞大文本词集中选择出最有利于文本表示的特征子集,从而能为文本的分类、文本处理打下良好的基础。
技术领域
本发明涉及自然语言处理领域,具体地说是一种基于粒子群优化算法的特征选择方法(PSO-FS),应用于文本的特征选择中,选择出有效的特征从而更好地表示文本。
背景技术
在大数据时代,数据产生日益庞大,从大量的数据中获得有用的信息变得更加复杂。利用人工的方法对数据进行处理则在大数据时代,产生的数据日益庞大,从大量的数据中获得有用的信息变得更加复杂。利用人工的方式对数据进行处理则难度很大,所以自然而言地想到利用机器来处理数据。
文本分类是指对文本进行特征选择以及分析,将文本特征属性最相似的归为一类的过程。文本分类包括以下的几个步骤:分词、去停用词、特征选择、向量空间模型表示、训练分类器并且分类。文本大多数内容都是自然语言表示,与机器语言不同,因此需要将原始文本进行转换。VSM是将文本利用空间向量模型进行表示,若将分词所得的词语作为特征项,则向量维度庞大,这不仅给计算带来了复杂度,并且分词所得词语中有大量的无用信息,也对分类带来干扰,因此选择有效地文本特征项并且控制特征项的数量是极其关键的一步。
特征选择是指通过一定的特征计算方法,从总的特征集合中选择出具有文本区分度强度的特征为特征项。特征选择对文本处理有着多种的意义:(1)特征选择能提高模型的预测性能,有效地提高准确率。(2)对模型的训练时间和预测的时间都有所减少,提高整体的效能。(3)揭示了数据中隐含意义以及数据的产生过程。简单来说就是特征选择使得从数据集中选择出最有效地特征,更好地对数据进行理解。特征选择出的有效特征集越小,使得表示是维度降低,降低了模型的学习成本。现有文档频率(DF)、X2(Chi)统计、信息增益(IG)、互信息(MI)等这几种常用的特征选择方法进行了介绍分析及对比,结果显示,针对不同的分类器及数据集,每种方法各有优缺。
粒子群算法(Particle Swarm Optimization,PSO)是源于对鸟群捕食行为模拟的重要群集智能算法。PSO最开始随机一群随机例子,通过模拟鸟群的行为不断的迭代寻找到最优解。每一次迭代的过程中,都会记录当前的最优解,以及更新历史最优解,并且改变自身的位置以及移动的速度。该算法具有较强的全局搜索能力,并且利于理解实现方式也很简单。作为一种优化工具,有效地利用到了诸多的领域。但它自身也存在缺陷,在遇到局部极值时,粒子的速度迅速降低直到停滞,且很难跳出局部极值点,出现早熟现象,而惯性权重是粒子群算法一个重要参数,用以调节粒子群的搜索能力。
发明内容
本发明的目的是提供一种粒子群优化的文本特征选择方法,该方法利用粒子很强的局部搜索能力选择出对类别区分能力显著和包含文本信息量多的特征集合,有效地降低文本向量的维度。
一种粒子群优化的文本特征选择方法,该方法包括以下具体步骤:
1)用分词工具将文本集进行分词,将分词后的词语组成一个词集,作为文本集的原始特征,用T来表示特征集合,集合T中特征的个数为n,即T={t1,t2,...,tn};
2)首先,利用式(1)计算特征ti同其他特征之间的平均关系距离Ri,
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华东师范大学;国网浙江省电力有限公司;浙江华云信息科技有限公司,未经华东师范大学;国网浙江省电力有限公司;浙江华云信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810315024.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:搜索对比系统及其搜索方法
- 下一篇:一种数字化的管理体系审核方法