[发明专利]一种基于头脑风暴优化算法的中文网页分类方法有效
申请号: | 201910895749.X | 申请日: | 2019-09-21 |
公开(公告)号: | CN110597996B | 公开(公告)日: | 2023-04-14 |
发明(设计)人: | 程适;雷秀娟 | 申请(专利权)人: | 陕西师范大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/31 |
代理公司: | 西安铭泽知识产权代理事务所(普通合伙) 61223 | 代理人: | 梁静 |
地址: | 710119 陕西*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 头脑 风暴 优化 算法 中文 网页 分类 方法 | ||
1.一种基于头脑风暴优化算法的中文网页分类方法,其特征在于,包括:
对中文文档进行分词,并根据词频建立中文文档的单词索引;
根据中文文档的单词索引,建立中文文档分词向量;
采用头脑风暴优化算法,对中文文档分类算法的性能和参数进行优化;
采用头脑风暴优化算法,对中文文档分类算法训练集的样本选择和样本数目进行优化;
根据优化后的中文文档分类算法,对中文文档进行分类;
所述中文文档分类算法包括:k最近邻算法、k加权最近邻算法;
所述采用头脑风暴优化算法,对中文文档分类算法的性能和参数进行优化;具体包括:
对于k最近邻算法,中文文档分类算法的性能优化如下:
其中,y'为最大预测样本值;v是类别标记;yi是根据最近样本得到的类别,如果分类相同I(·)为1,否则为0;xi为第i个词组;
对于k最近邻算法,中文文档分类算法的参数优化如下:
将k作为优化决策变量,设定初步优化目标函数:
将不同的k取值作为解,将分类的错误率作为函数值;
所述采用头脑风暴优化算法,对中文文档分类算法训练集的样本选择和样本数目进行优化;具体包括:
对于k最近邻算法,中文文档分类算法训练集的样本数目优化如下:
将k和每个类别的训练样本数目ni作为优化决策变量,设定初步优化目标函数:
其中,N={n1,...ni,...nm},m为分类的总类别数,ni为类别i的训练样本数目;将不同的k和N的取值作为解,将分类的错误率作为函数值;
对于k最近邻算法,中文文档分类算法训练集的样本选择优化如下:
将k和每个类别的训练样本Xt作为优化决策变量,设定初步优化目标函数:
其中,m为分类的总类别数,ni为类别i的训练样本数目,Xti,1表示类别i的第一个训练样本;将不同的k和Xt的取值作为解,将分类的错误率作为函数值。
2.如权利要求1所述的基于头脑风暴优化算法的中文网页分类方法,其特征在于,所述对中文文档进行分词,并根据词频建立中文文档的单词索引;具体包括:
对网页长文本信息进行预处理;去掉每个网页中无关词汇,对句子进行分词,将长文本转化为包含多个词语的词袋,每个词语为一个变量;一个网页被转化为包含词汇多个变量的链表或称为一个长向量,长向量用X=(x1,x2,...,xn)表示,其中,X为一个网页包含的所有词组的集合,x1到xn为单个词组。
3.如权利要求1所述的基于头脑风暴优化算法的中文网页分类方法,其特征在于,所述根据中文文档的单词索引,建立中文文档分词向量;具体包括:
计算词汇的出现频率,去掉无关词汇,调整其余每个词汇的权重信息;对中文文档建立词频-逆文本频率指数序列;选择部分文档进行类别标注,作为分类样例。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于陕西师范大学,未经陕西师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910895749.X/1.html,转载请声明来源钻瓜专利网。