[发明专利]一种基于机器学习的文本分类方法在审
申请号: | 202011544023.0 | 申请日: | 2020-12-24 |
公开(公告)号: | CN113157912A | 公开(公告)日: | 2021-07-23 |
发明(设计)人: | 刘建雄;陈敏 | 申请(专利权)人: | 航天科工网络信息发展有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/216;G06K9/62;G06N20/10 |
代理公司: | 中国兵器工业集团公司专利中心 11011 | 代理人: | 张然 |
地址: | 100854 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 机器 学习 文本 分类 方法 | ||
本发明涉及一种基于机器学习的文本分类方法,其中,包括:文本数据预处理、文本表示、特征降维、分类模型训练以及分类性能评估;文本数据预处理具体包括:按照顺序需要对文本数据进行操作:文本标记、文本分词处理以及去除停用词处理;文本表示包括:经过文本预处理之后,将文本表示成一种形式化数学描述,使之成为计算机能够识别的语言;卡方统计算法以及互信息算法,进行特征降维。本发明在CHI中引入词频因子,MI中引入调节因子,形成新的特征选取算法CHMI,理论效果优于卡方统计和互信息算法,实现了快速、准确获取到目标数据。
技术领域
本发明涉及文本分类技术,特别涉及一种基于机器学习的文本分类方法。
背景技术
随着互联网和社交媒体的发展,目前网络上已经有海里的文本信息,包括维基百科词条、学术文章、新闻报道、以及各种售后服务评论,而这些文本信息中蕴含了大量有价值的信息,
在海量的电子文本数据之中想要实现快速、准确获取到目标数据,对文本文档实现合理分类就变成了这个过程当中一个非常直接和现实的迫切问题。
20世纪80年代以前,受限于技术的发展,处理文本分类这类问题时,通行的做法是通过专家制定规则、人为地选择、制定分类准则从而完成分类器的指导和搭建工作。比较著名的例子是Carnegine Group为路透社开发的CONSTRUE系统,该系统首先由专业人员设计编写分类规则并指导系统完成分类巩固走,主要用于对新闻稿件实现自动分类;同时期还有美国白宫采用的一种邮件分类系统,主要用于对电子邮件的自动分拣和处理工作。这种分类方法在当时取得了比较好的效果,并对文本分类技术起到了积极作用和产生了深远影响。
通过知识工程构建起来的分类器有诸多缺陷:首先需要人类专家根据对待分类文档进行特征分析、总结得到对象特点的基础上,再人为设计提出并选定适当规则,并且针对一个领域所建立的文本分类器在应对其他知识领域的分类情况时,往往回出现分类效果不佳等问题,主要原因在于通过知识工程构建文本分类方法的过程中存在对专家能力过度依赖。由于人类专家研究领域有限,所建立的文本分类器的有效领域也是有限的,在其他领域使用会出现可复现性差或迁移能力差等相关问题。此外,在涉及到数据集规模较大较复杂的文本分类情况时,为应对比较大的工作量又需要大量的专家参与其中,故又显示出方法不够聪明并且费时费力的缺陷。
发明内容
本发明通过引入一种基于机器学习的文本分类方法,以此进行更高效的文本分类。
本发明一种基于机器学习的文本分类方法,其中,包括:文本数据预处理、文本表示、特征降维、分类模型训练以及分类性能评估;文本数据预处理具体包括:按照顺序需要对文本数据进行操作:文本标记、文本分词处理以及去除停用词处理;文本表示包括:经过文本预处理之后,将文本表示成一种形式化数学描述,使之成为计算机能够识别的语言;卡方统计算法以及互信息算法,进行特征降维;分类模型训练包括:采用SVM来进行分类,定义训练数据集中的两个类别中几何距离最近的两组数据为支持向量,超平面H就是与这两组分属于不同类别的数据连线的垂直平分线,而分类线H1与H2分别是指经过这两个类别中支持向量,首先寻找支持向量,通过训练集中不同类数据的几何距离来剔除大量冗余数据,根据保留的少量数据即支持向量,找到超平面H进行类别划分。
根据本发明所述的基于机器学习的文本分类方法的一实施例,其中,文本标记的处理包括:文本中的表情符、图片或者链接非中文字符无法对文本分类提高直接且有用的帮助,进行删除。
根据本发明所述的基于机器学习的文本分类方法的一实施例,其中,去除停用词包括:经过分词处理之后的文本数据仍然还存在许多功能词和停用词,对停用词和功能词进行额外删除。
根据本发明所述的基于机器学习的文本分类方法的一实施例,其中,文本分词的处理包括:首先识别出中文语句中存在的标点符号或是某些汉语文字,并在这些出现位置上通过添加空格符实现切分效果并得到切分后的词条内容,相邻字通过统计学方法得到分布信息,如果得到统计值很高达到一定阈值时,就判定这组相邻的字就可能是一个词语。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于航天科工网络信息发展有限公司,未经航天科工网络信息发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011544023.0/2.html,转载请声明来源钻瓜专利网。