[发明专利]一种基于KNN算法的稿件翻译优化方法在审

申请号：	201510406887.9	申请日：	2015-07-13
公开（公告）号：	CN105005792A	公开（公告）日：	2015-10-28
发明（设计）人：	郑林涛;史恒亮;俞卫华;董永生;范庆辉	申请（专利权）人：	河南科技大学
主分类号：	G06K9/62	分类号：	G06K9/62
代理公司：	洛阳公信知识产权事务所(普通合伙) 41120	代理人：	罗民健
地址：	471000 河***	国省代码：	河南;41
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于 knn 算法稿件翻译优化方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

一种基于KNN算法的稿件翻译优化方法，采用裁剪优化训练集的K最近邻结点算法对稿件进行分类，属于文本挖掘，自然语言处理，计算机技术等领域。

背景技术

信息时代和网络化使翻译工作方式发生了很大的变化。利用翻译流程管理平台，根据不同对象储存人才资料。有翻译任务时，可以根据翻译项目的语种、文章类型、专业领域以及客户对翻译质量和时限的要求，调用最合适的翻译和审校人员，组成项目组进行翻译，从而提高翻译效率、节省翻译费用、确保译文质量、优化项目管理。

目前的辅助翻译及管理平台对译员和译稿的匹配，一般还是通过人工或半人工的方式完成，往往需通过更高级别的译员（比如审校）来判别译员的翻译能力和对译稿的合适度。这样不但主观性强，而且采用人工选择译员，效率低下。

发明内容

本发明针对现有技术的不足提供一种基于KNN算法的稿件翻译优化方法，解决传统人工分类方法的效率和准确率低的问题，并且在特征提取步骤将互信息值引入到遗传算法之中，能够结合两种提取方法的优点，使得特征提取结果更为可靠，使整个文本分类能够更好的应用于稿件文本信息挖掘系统。

为了解决上述技术问题，本发明采用如下技术方案：

一种基于KNN算法的稿件翻译优化方法，其特征在于，如下步骤：

对训练用稿件和待分类邮件数据进行文本预处理；

将预处理后的训练用稿件和待分类邮件数据分别进行文本表示；

对文本表示的训练用稿件和待分类邮件数据分别利用遗传算法进行特征提取；

对提取的训练用稿件特征进行分类训练，使用经过优化样本集的KNN算法进行训练分类，构造文本分类器；

将文本分类器作用于特征提取后的待分类稿件，得到待分类稿件的分类结果。

作为优选，所述步骤(2)中，文本表示是指将预处理后的结构化文本数据转化为向量空间模型表示，具体步骤如下：

使用TF_IDF法分别计算训练用稿件和待分类邮件数据中每个特征词的权重，计算公式为：

其中，表示的是第i个文本特征词在文本（训练用稿件或待分类邮件数据）中出现的频率数目，N是文档（训练用稿件或待分类邮件数据）的总数目，Ni是指文档（训练用稿件或待分类邮件数据）集合中出现第i个文本特征词的文本书目，n为文本特征抽取时所选用的文本特征词数目，k为求和公式起点到终点的取值，从1开始计算到n，表示的是第k个文本特征词在文本中出现的频率数目；

将计算出的训练用稿件和待分类邮件数据特征词权值分别表示为向量，具体表示为：

，

其中，n表示文本特征提取所用的文本特征词数目，表示第j个文本特征词在文档即训练用稿件或待分类邮件数据中的权值，j为1到n的任意值；

计算训练用稿件特征的平均互信息值，计算公式为：

，

其中，表示训练样本集中既属于特征词w又属于类别的概率，P(w)表示包含特征词w在训练用稿件中出现的概率，P()表示训练用稿件中属于类别的稿件的概率，MI(w，)表示单个类别下得互信息值，为平均互信息值；

将训练用稿件的特征平均互信息值加入步骤（22）训练用稿件向量表示的最后一维度，具体表示为，

，

其中，n表示文本特征提取所用的特征词数目，表示第j个文本特征词在稿件中的权值，表示特征的平均互信息，j为1到n的任意值。

作为优选，所述步骤（3）中，对文本表示的训练用稿件和待分类邮件数据分别利用遗传算法进行特征提取，具体步骤如下：

（31）采用浮点数编码方式分别对文本表示的训练用稿件和待分类邮件数据进行染色体编码；

（32）将编码后的训练用稿件和待分类邮件数据的文本特征词进行初始化，包括设置迭代次数，随机生成部分个体作为初始种群；