[发明专利]一种文本分类的控制方法有效
申请号: | 201710943645.2 | 申请日: | 2017-10-11 |
公开(公告)号: | CN107908649B | 公开(公告)日: | 2020-07-28 |
发明(设计)人: | 赵冲 | 申请(专利权)人: | 北京智慧星光信息技术有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35 |
代理公司: | 北京国昊天诚知识产权代理有限公司 11315 | 代理人: | 许志勇;刘昕 |
地址: | 100080 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 分类 控制 方法 | ||
1.一种文本分类的控制方法,包括:
对训练集中随机选择的待分类文档进行第一训练处理,其中通过对各指定类别中出现的所有单词根据TF-IDF算法计算各单词的权重值W1,并根据各单词的权重值的排序获取到第一训练处理后的文本分类特征;本步骤包括:对训练集中所有随机选择的待分类文档进行分词后,将分词后的文件名以.seg为扩展名进行保存,其中不进行词性标注操作;对随机选择的待分类文档进行类别特征抽取操作,其中通过对各指定类别中出现的所有单词根据以下公式计算各单词的权重值W1:W1=TF*IDF,其中TF为一单词W在文档中出现次数,IDF=log(H/A+1),H为训练集中随机选择的待分类文档总数;A为某指定类别中出现该单词W的文档数目;对指定类别中每类别的单词按权重值从大到小排序后,提取权重值最大的前M个词为该类别的特征词,其中M为预设值,M0;
对训练集中已筛选的待分类文档进行第二训练处理,其中通过对各指定类别中出现的所有单词根据以下公式计算各单词的权重值W2,并根据各单词的权重值的排序获取到第二训练处理后的文本分类特征;
W2=N×(A×D-B×C)2/((A+B)×(C+D)×(A+C)×(B+D)),
其中,N为训练集中已筛选的待分类文档总数;A为某指定类别中出现一单词W的文档数目;B为除该指定类别外,其他所有指定类别中出现单词W的文档数目,C为该指定类别中没有出现单词W的文档数目;D为除该指定类别外,其他所有指定类别中没有出现单词W的文档数目;
将第一次训练处理的文本分类特征和第二次训练处理后的文本分类特征进行特征交集组合操作后,生成新的文本分类特征并纳入总体特征库中;
对训练集中新增语料进行增量训练,其中按序进行第一次训练处理和第二次训练处理后,对两次训练后的文本分类特征进行特征交集组合操作生成新的文本分类特征的增量特征,同时将新的文本分类特征的增量特征纳入到总体特征库中,完成文本分类的控制。
2.如权利要求1所述的方法,其特征在于,
所述对训练集中所有随机选择的待分类文档进行分词后,将分词后的文件名以.seg为扩展名进行保存,其中不进行词性标注操作的步骤,还包括:
从训练集读取一文档并提取该文档内容及其类别后,对提取的该文档内容进行分词,并将分词后的文件名以.seg为扩展名按类别存储,重复上述过程直至完成对训练集中所有待分类文档的操作处理。
3.如权利要求2所述的方法,其特征在于,
所述对训练集中已筛选的待分类文档进行第二训练处理,其中通过对各指定类别中出现的所有单词根据以下公式计算各单词的权重值W2,并根据各单词的权重值的排序获取到第二训练处理后的文本分类特征的步骤,还包括:
设定训练集中已筛选的待分类文档的特征数目和各指定类别名称后,顺序提取一单词和该单词所属类别名称后,判断若该单词的所属类别名称与当前指定类别名称相同且该单词为当前指定类别的特征词,则将该单词及其权重值W2存入当前指定类别特征词列表中,重复上述过程直至完成对训练集中所有待分类文档的操作处理;
对指定类别中每类别的单词按权重值从大到小排序后,根据预设的特征数目的数值P,提取权重值最大的前P个词为该类别的特征词,其中P0。
4.如权利要求3所述的方法,其特征在于,
所述顺序提取一单词和该单词所属类别名称后,还包括:判断若提取的单词的特征与当前指定分类中预设的标准范式特征相同,则直接将该单词及其权重值存入当前指定类别特征词列表中。
5.如权利要求4所述的方法,其特征在于,
所述将第一次训练处理的文本分类特征和第二次训练处理后的文本分类特征进行特征交集组合操作后,生成新的文本分类特征的步骤,包括:
对各指定类别中出现的所有单词根据公式W3=W1*W2重新计算各单词的权重值W3后,将获得的权重值W3存入到当前指定类别特征词列表中,替换该单词的原有权重值。
6.如权利要求5所述的方法,其特征在于,
所述对训练集中新增语料进行增量训练,其中按序进行第一次训练处理和第二次训练处理后,对两次训练后的文本分类特征进行特征交集组合操作生成新的文本分类特征的增量特征,同时将新的文本分类特征的增量特征纳入到总体特征库中的步骤,包括:
将新增语料进行分词,判断若新增语料中单词与所述.seg文件中单词相同,则对相同单词保留一份数据后,对其中各指定类别中出现的各单词计算各单词的权重值W1和W2;
判断若一指定类别中出现的一单词有权重值W3,则通过W4=(W3+W2)/2计算该单词在当前指定类别中的新的权重值W4后,将获得的权重值W4存入到当前指定类别特征词列表中,替换该单词的原有权重值;
判断若一指定类别中出现的新特征的单词,则通对该指定类别中出现的该单词根据公式W3=W1*W2重新计算各单词的权重值W3后,将获得的权重值W3存入到当前指定类别特征词列表中。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京智慧星光信息技术有限公司,未经北京智慧星光信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710943645.2/1.html,转载请声明来源钻瓜专利网。