[发明专利]一种中文文本分类方法有效
申请号: | 201910100095.7 | 申请日: | 2019-01-31 |
公开(公告)号: | CN109902173B | 公开(公告)日: | 2020-10-27 |
发明(设计)人: | 陈卓 | 申请(专利权)人: | 青岛科技大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35 |
代理公司: | 杭州天昊专利代理事务所(特殊普通合伙) 33283 | 代理人: | 赵志鹏 |
地址: | 266061 山*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 中文 文本 分类 方法 | ||
本发明公开了一种中文文本分类方法,包括测试集文本D和训练集的文本类别集合C,将测试集文本D通过文本分类方法映射到训练集的文本类别集合C;其中D={d1,d2,…,dm},其中C={c1,c2,…,cn},m为文本数,n为文本类别数;本发明提供了建模更合理、分类准确率提高、召回率提高,整体精准快捷的一种中文文本分类方法。
技术领域
本发明涉及文本分类领域,更具体的说,它涉及一种中文文本分类方法。
背景技术
近年来,化工事故频繁发生,8·12天津滨海新区瑞海国际物流中心危险品仓库发生火灾爆炸事故、11·22山东青岛输油管道泄露爆炸事件等化工事故的发生,带来的不仅是巨大的经济损失,同时也伴随着人员伤亡、环境污染,一些重大的化工事故容易造成人员恐慌,对社会有重大的影响。若能利用某种技术快速准确定位出与化工事故相关报道,为研究化工事故成因、跟踪报道、预防化工事故发生等提供了便利。因此,需要一种可以有效率地管理这些信息的技术,将大量的文本信息自动分类,选择出人们需要的特定领域信息文本。文本分类技术可以分析处理大量文本数据,人工干预大大减少,并且能高效准确定位出特定信息文本,是处理各类文本的有效方式。
信息技术的发展日益迅猛,互联网技术逐渐成熟,随之产生的数据量呈爆炸性增长,而这些数据大多是半结构化和非结构化的,并且以文本形式呈现。若采用人工方式将一篇文本划分到某个分类中,虽然分类结果准确,但是耗费的人力物力极其巨大,无法快速适应互联网时代信息的极速增加以及社会发展的需求,实现十分困难。实际上,根据特定的需求,人们往往只关心文本信息的某一个领域,快速提取出指定的文本信息对互联网技术的发展具有举足轻重的作用。
我国最早关于文本分类的报告是80年代初,就职于南京工业大学的侯汉清教授首次对其进行了系统性地阐述。随后,多位学者对文本分类方法不断改进,随之我国在文本分类领域的研究取得较大进展。李晓黎、史忠值等人通过将概念推理网引入文本分类,文本分类的准确率和召回率得到较大提升。姜远、周志华等在2006年提出在分类时将词频作为影响因素,复旦大学的李荣陆在构建文本分类器时采用基于最大熵模型的分类方法,黄菁菁等采用独立语种对文本分类进行了广泛扩展。但整体上,仍没有极高的精准分类的方法。如何快速精确地定位是近几年来信息发展的一个重要研究范畴。
发明内容
本发明为文本分类的高效提供了可能,其建模更合理、分类准确率提高、召回率提高,整体精准快捷的一种中文文本分类方法。
本发明的技术方案如下:
一种中文文本分类方法,包括测试集文本D和训练集的文本类别集合C,将测试集文本D通过文本分类方法映射到训练集的文本类别集合C;其中D={d1,d2,…,dm},其中C={c1,c2,…,cn},m为文本数,n为文本类别数,具体处理步骤如下:
101)文本预处理步骤:将训练集的文本进行文本标记处理、分词、去除停用词,将处理后的文本通过统计做特征选择,进行特征降维得到训练集的文本类别集合C;
其中,统计采用特征项t与类别Ci的相互关联性进行排序统计,具体包括四种统计:属于类别Ci且包含特征项t的文本数集A,不属于类别Ci但包含特征项t的文本数集B,属于类别Ci但不包含特征项t的文本数集C,不属于类别Ci且不包含特征项t的文本数集D;Ci表示分词后去除相近分词的文本类别集合中的其中一个类别,i为类别标识,其小于等于分词后的分词数量;特征项t为具体的分词;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于青岛科技大学,未经青岛科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910100095.7/2.html,转载请声明来源钻瓜专利网。