[发明专利]文本分类方法及装置在审
申请号: | 201811149185.7 | 申请日: | 2018-09-29 |
公开(公告)号: | CN109408636A | 公开(公告)日: | 2019-03-01 |
发明(设计)人: | 郑东东;蒋茂勇 | 申请(专利权)人: | 新华三大数据技术有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35 |
代理公司: | 北京林达刘知识产权代理事务所(普通合伙) 11277 | 代理人: | 刘新宇 |
地址: | 450000 河南省郑州市高新技*** | 国省代码: | 河南;41 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 特征向量矩阵 约简 文本分类 专家知识 文本 特征词 维度 分类模型 时间消耗 样本数据 语义鸿沟 分类 算法 预设 引入 | ||
本公开涉及一种文本分类方法及装置,包括:获取待处理文本的特征向量矩阵;根据所述特征词、特征词对应的参数值和专家知识对所述特征向量矩阵进行维度约简,获取约简特征向量矩阵;根据预设分类模型及所述约简特征向量矩阵对所述待处理文本进行分类。本公开通过引入了专家知识对文本进行分类,在一定程度上克服了语义鸿沟,实现了特征向量矩阵的维度的约简,节省了算法运行的空间和时间消耗,有效提高文本分类的精度,并节省了样本数据标记的成本。
技术领域
本公开涉及文本分类技术领域,尤其涉及一种文本分类方法及装置。
背景技术
据预测,非结构化数据占据所有数据的70-80%以上。例如,广泛存在于互联网和企业内部的文本数据是一种典型的非结构化数据,以其灵活的表示形式,蕴含了丰富的信息。结合数据分析技术,挖掘文本价值,对于企业运营具有重要意义。以文本分类为代表的文本挖掘技术在情感分类、产品缺陷分析、法律文书分析等许多领域都有广泛的应用价值。
然而,大量的文本数据通常混合在一起,无法区分文本数据的类别,这对文本数据的利用造成阻碍。
因此,急需提出一种文本分类的方法,能够将文本数据快速、准确分类。
发明内容
有鉴于此,本公开提出了一种文本分类方法及装置,以实现文本快速、准确分类。
根据本公开的一个方面,提出了一种文本分类方法,所述方法包括:
获取待处理文本的特征向量矩阵,其中,所述特征向量矩阵包括至少一个特征和每个特征对应的特征值,所述特征为从所述待处理文本提取的特征词,所述特征值为所述特征词对应的参数值;
根据所述特征词、特征词对应的参数值和专家知识对所述特征向量矩阵进行维度约简,获取约简特征向量矩阵,其中,所述专家知识包括多个类别,每个类别中包括多个关键特征词,其中,所述约简特征向量矩阵包括至少一个特征和每个特征对应的特征值,所述特征为所述类别,所述特征值为所述类别对应的参数值;
根据预设分类模型及所述约简特征向量矩阵对所述待处理文本进行分类。
在一种可能的实施方式中,所述特征词的参数值为所述特征词的词频、逆文本频率、TF-IDF、信息增益、互信息的其中之一。
在一种可能的实施方式中,根据所述特征词、特征词对应的参数值和专家知识对所述特征向量矩阵进行维度约简,获取约简特征向量矩阵,包括:
将所述特征向量矩阵中的所述特征词与类别中的关键特征词进行对比,确定所述特征词所属的类别;
针对属于同一类别的特征词,根据该类别的各个特征词的参数值确定该类别对应的参数值;
将所述特征向量矩阵中属于同一类别的特征词对应的特征约简为该类别对应的特征,将该类别对应参数值作为该特征的特征值。
在一种可能的实施方式中,所述根据该类别的各个特征词的参数值确定该类别对应的参数值,包括:
针对同一类别的特征词,将属于该类别的特征词的参数值的和,或属于该类别的特征词的参数值的最大值,或属于该类别的特征词的参数值的平均值作为约简后该类别的参数值。
在一种可能的实施方式中,所述预设分类模型为逻辑回归、多项式贝叶斯、支持向量机、朴素贝叶斯算法的其中之一。
根据本公开的另一个方面,提出了一种文本分类装置,所述装置包括:
获取模块,用于获取待处理文本的特征向量矩阵,其中,所述特征向量矩阵包括至少一个特征和每个特征对应的特征值,所述特征为从所述待处理文本提取的特征词,所述特征值为所述特征词对应的参数值;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于新华三大数据技术有限公司,未经新华三大数据技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811149185.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种病历文档标准化处理系统及方法
- 下一篇:一种自动解析工程清单的方法及系统