[发明专利]一种基于KNN算法的稿件翻译优化方法在审
申请号: | 201510406887.9 | 申请日: | 2015-07-13 |
公开(公告)号: | CN105005792A | 公开(公告)日: | 2015-10-28 |
发明(设计)人: | 郑林涛;史恒亮;俞卫华;董永生;范庆辉 | 申请(专利权)人: | 河南科技大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 洛阳公信知识产权事务所(普通合伙) 41120 | 代理人: | 罗民健 |
地址: | 471000 河*** | 国省代码: | 河南;41 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 knn 算法 稿件 翻译 优化 方法 | ||
1.一种基于KNN算法的稿件翻译优化方法,其特征在于,如下步骤:
对训练用稿件和待分类邮件数据进行文本预处理;
将预处理后的训练用稿件和待分类邮件数据分别进行文本表示;
对文本表示的训练用稿件和待分类邮件数据分别利用遗传算法进行特征提取;
对提取的训练用稿件特征进行分类训练,使用经过优化样本集的KNN算法进行训练分类,构造文本分类器;
将文本分类器作用于特征提取后的待分类稿件,得到待分类稿件的分类结果。
2.根据权利要求1所述的一种基于KNN算法的稿件翻译优化方法,其特征在于,所述步骤(2)中,文本表示是指将预处理后的结构化文本数据转化为向量空间模型表示,具体步骤如下:
使用TF_IDF法分别计算训练用稿件和待分类邮件数据中每个特征词的权重,计算公式为:
其中,表示的是第i个文本特征词在文本中出现的频率数目,N是文档的总数目,Ni是指文档集合中出现第i个文本特征词的文本书目,n为文本特征抽取时所选用的文本特征词数目,k为求和公式起点到终点的取值,从1开始计算到n,表示的是第k个文本特征词在文本中出现的频率数目;
将计算出的训练用稿件和待分类邮件数据特征词权值分别表示为向量,具体表示为:
,
其中,n表示文本特征提取所用的文本特征词数目,表示第j个文本特征词在文档即训练用稿件或待分类邮件数据中的权值,j为1到n的任意值;
计算训练用稿件特征的平均互信息值,计算公式为:
,
其中,表示训练样本集中既属于特征词w又属于类别的概率,P(w)表示包含特征词w在训练用稿件中出现的概率,P()表示训练用稿件中属于类别的稿件的概率,MI(w,)表示单个类别下得互信息值,为平均互信息值;
将训练用稿件的特征平均互信息值加入步骤(22)训练用稿件向量表示的最后一维度,具体表示为,
,
其中,n表示文本特征提取所用的特征词数目,表示第j个文本特征词在稿件中的权值,表示特征的平均互信息,j为1到n的任意值。
3.根据权利要求1所述的一种基于KNN算法的稿件翻译优化方法,其特征在于,所述步骤(3)中,对文本表示的训练用稿件和待分类邮件数据分别利用遗传算法进行特征提取,具体步骤如下:
(31)采用浮点数编码方式分别对文本表示的训练用稿件和待分类邮件数据进行染色体编码;
(32)将编码后的训练用稿件和待分类邮件数据的文本特征词进行初始化,包括设置迭代次数,随机生成部分个体作为初始种群;
(33)计算初始种群中的每一条染色体的适应度;
(34)判断染色体适应度是否稳定或者是否已经达到遗传算法迭代的最终次数,如果是,则庶出最优解,否则,执行步骤(35);
(35)使用比例法进行选择,将选择算子作用于种群;
(36)使用单点交叉和多点交叉相结合的方式,将交叉算子作用于种群;
(37)随机从未选中过的特征词权值中选择一个特征词权值,替换每条染色体中特征词权值最小的值,并将变异算子作用于种群,生成新一代的种群,并转到步骤(33)。
4.根据权利要求3所述的一种基于KNN算法的稿件翻译优化方法,其特征在于,所述步骤(35)中,比例法的公式为:
,
其中,为每一条染色体的适应度,为最终被选择的概率,j为从j=1开始直到n,n为遗传算法染色体总数。
5.根据权利要求1所述的一种基于KNN算法的稿件翻译优化方法,其特征在于,所述步骤(4)中,使用经过优化样本集的KNN算法进行训练分类的步骤如下:
(41)对训练用稿件进行裁剪,得到裁剪样本文本数据训练集;
(42)采用余弦定理计算待分类稿件数据和裁剪后样本文本数据训练集中已知类别样本文本数据之间的相似度;
(43)选取与待分类稿件数据之间相似度最高的K个已知类别样本文本数据;
(44)根据K个已知类别样本文本数据判断待分类稿件的类别。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河南科技大学,未经河南科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510406887.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种具有表示巨量信息的几何编码
- 下一篇:仿真人类低层视觉的目标感知方法