[发明专利]一种计算机文本分类体系有效
申请号: | 201610921360.4 | 申请日: | 2016-10-21 |
公开(公告)号: | CN106503153B | 公开(公告)日: | 2019-05-10 |
发明(设计)人: | 钱进;吕萍 | 申请(专利权)人: | 江苏理工学院 |
主分类号: | G06F16/35 | 分类号: | G06F16/35 |
代理公司: | 常州兴瑞专利代理事务所(普通合伙) 32308 | 代理人: | 肖兴坤 |
地址: | 213001 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种计算机文本分类系统,其包括文本预处理模块、文本的形式化模块,文本权值计算模块、模型训练模块、噪声降低模块;本发明的有益效果是,本发明能有效地减少计算机文本分类的时间和空间复杂度,从而使得计算机文本分类更加快速、有效和准确。 | ||
搜索关键词: | 一种 计算机 文本 分类 体系 系统 及其 方法 | ||
【主权项】:
1.一种计算机文本分类体系,其特征在于,包括:文本预处理模块、文本的形式化模块,文本权值计算模块、模型训练模块、噪声降低模块;所述文本预处理模块适于将输入文本中的标点符号、空格去除,对所述输入文本的语法错误进行纠正,分割成词语集合,以及对所述词语集合进行停用词去除,所述停用词去除被分为两步:第一步,对所述词语集合进行分类,将所述词语集合分为通用输入词语集合以及专业输入词语集合;第二步,对所述通用输入词语集合采取利用固定的停用词列表进行分析过滤,将所述通用输入词语集合转换成去除停用词的所述通用输入词语集合,对所述专业输入词语集合采用相对熵来度量其包含的信息量,根据信息量的多少对所述专业输入词语集合进行降序排序,将排序在后2%的所述专业输入词语集合中的词语去除,构成去除停用词的所述专业输入词语集合,将所述去除停用词的所述通用输入词语集合以及所述去除停用词的所述专业输入词语集合结合;即形成精简词语集合;所述文本的形式化模块适于将所述精简词语集合转换成计算机能识别的形式化模型,首先根据所述输入文本的词语出现的顺序将所述精简词语集合表示为词语有序序列,并且将所述词语有序序列表示成状态变迁系统,所述状态变迁系统是由状态以及状态之间的变迁关系组成的一种计算机能识别的形式化模型,所述词语有序序列的词语映射为所述状态变迁系统的状态,所述词语有序序列中相邻的词语表示为其映射的所述状态变迁系统的状态之间的变迁关系;所述文本权值计算模块适于对所述状态变迁系统进行处理转换成状态标签变迁系统,所述状态标签变迁系统由所述状态变迁系统以及所述状态变迁系统中的状态上的标签组成;即计算所述词语有序序列中的词语在所述输入文本中的分布律,并计算所述输入文本的长度,计算两者的比值,作为局部系数,计算所述词语有序序列中的词语的信息增益,作为全局系数,将所述局部系数乘以所述全局系数得到所述词语有序序列中的词语的权重,将所述词语有序序列中的词语的权重作为所述状态变迁系统中的状态上的标签,从而得到所述状态标签变迁系统;所述模型训练模块适于根据所述词语有序序列中的词语的权重将所述状态变迁系统的状态进行进一步地升序排序,形成词语权重序列,对所述词语权重序列扩展维数,加入具有变迁关系的状态,构成词语向量空间模型,并且根据支持向量机分类器对所述词语向量空间模型进行处理并进行降维,得到词语类别的序列集合;即所述词语类别的序列集合由词语组成的序列组成,一个类别的词语属于一个序列,并且一个序列中的词语按所述词语的权重的降序排序;所述噪声降低模块对所述词语类别的序列集合进行清除噪声数据,并且确保不改变所述词语类别的序列集合的结构;即所述清除噪声数据的步骤为首先将所述词语类别的序列集合进行初始化,并且结合所述状态变迁系统的状态之间的变迁关系,得到近邻列表,共享所述输入文本中的分布律,计算所述近邻列表的频度,根据所述近邻列表的频度计算阈值,将权重低于阈值的所述词语类别的序列集合中的词语去除。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏理工学院,未经江苏理工学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610921360.4/,转载请声明来源钻瓜专利网。
- 上一篇:一种厨房消毒剂
- 下一篇:一种利用适宜PH值的酸性电解水防治黄瓜白粉病的方法