[发明专利]一种文本快速分类方法和装置在审
申请号: | 202110508564.6 | 申请日: | 2021-05-11 |
公开(公告)号: | CN113672725A | 公开(公告)日: | 2021-11-19 |
发明(设计)人: | 黄伟;刘昕;李弟诚;项荣鑫;王烈冲;赵庆齐 | 申请(专利权)人: | 中国石油大学(华东) |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/33;G06F16/332;G06K9/62 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 266580 山*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 快速 分类 方法 装置 | ||
本发明提出了一种基于主题模型结合线性判别的文本快速分类方法和装置。采用基于“词袋词频向量+PCA+线性判别+相似度计算”的主题模型结合线性判别快速准确发现新诉求数据所属办理部门。本方法主要通过基于已经获取到的历史诉求数据进行数据预处理,主要包括空缺值清洗、数据规范化的操作。根据规范化数据在实际情况下所属的不同办理部门对数据进行分组,对分组后的各办理部门数据采用jieba分词进行特征词提取,并运用统计学方法构建词袋词频向量,使用基于数据降维的PCA方法,训练各部门数据和总体数据,形成各部门对应的主题模型和总体数据的词‑主题矩阵,然后利用线性判别方法训练总体数据的词‑主题矩阵建立线性判别标准。获取一条新来诉求后,通过线性判别方法确定前3个候选分类。并对候选分类进行重叠关键词消除和相似度计算对其进行匹配预测,从而快速准确预测该诉求数据所属办理部门。
技术领域
本发明涉及一种文本快速分类方法,特别涉及一种基于主题降维结合线性判别的文本快速分类方法和装置。
背景技术
随着社会服务的不断发展,社会服务中诉求受理问题愈发多样化,诉求转办的工作量也越来越大。如何快速对诉求所属部门进行预测,精确给出预测结果,最终实现诉求转办自动化处理,提升工作质量,提高分派准确率,减少人工的目的,成为当前诉求转办工作中一项急需解决的问题。
目前,诉求转办的方式大多以人工为主,诉求受理人员根据诉求的不同内容,结合历史经验,将问题分配给不同的办理部门。但这种方式存在效率低、面对复杂诉求难以处理、人力需求大等问题,不能显现出政府服务的快捷和高效。
随着数据库技术的发展应用,数据的积累不断膨胀,大数据挖掘技术不断受到重视与发展,大数据挖掘相关人员研究出基于机器学习、统计学等与业务人员经验知识相融合的方法进行诉求的半智能转办。机器学习方法是运用自然语言处理中的TF-IDF算法,将大量的历史诉求信息,通过分词技术后,利用TF-IDF算法提取某一办理部门对应的高频关键词,将该部门高频关键词作为转办参考模型。针对新诉求数据对模型关键词进行匹配,从而确定所属办理部门。统计学方法是,基于大量的历史诉求数据,对历史诉求数据进行分词,统计各办理部门的高频关键词,然后结合业务人员的经验最终确定诉求所属办理部门。但随着社会问题不断多样化,关键词不断增多,新词不断出现,数据愈发嘈杂,业务复杂性和各部门间职能存在交叉的状况,现有转办系统推荐的办理部门准确率不高,使业务人员在转办时准确率降低,致使办理部门反复推诿,诉求转办效率不能满足诉求智能化转办需求。
综上所述,为满足诉求数据不断扩大,快速判别诉求所属办理部门并提高分派准确率,健全智能转办工作机制的要求,本发明提出了一种基于主题降维结合线性判别的文本快速分类方法和装置。采用基于“词袋词频向量+PCA+线性判别+相似度计算”的主题模型结合线性判别快速准确发现新诉求数据所属办理部门。
发明内容
基于已经获取到的历史诉求数据进行数据预处理,主要包括空缺值清洗、数据规范化的操作。根据规范化数据在实际情况下所属的不同办理部门对数据进行分组,对分组后的各办理部门数据采用jieba分词进行特征词提取,并运用统计学方法构建词袋词频向量,使用基于数据降维的PCA方法,训练各部门数据和总体数据,形成各部门对应的主题模型和总体数据的词-主题矩阵,然后利用线性判别方法训练总体数据的词-主题矩阵建立线性判别标准。获取一条新来诉求后,通过线性判别方法确定前3个候选分类。并对候选分类进行重叠关键词消除和相似度计算对其进行匹配预测,从而快速准确预测该诉求数据所属办理部门。
本发明所采用的技术方案如下:
一种基于主题降维结合线性判别的文本快速分类方法和装置,包括以下步骤:
A.基于各不同办理部门诉求数据,采用jieba.analyse分词算法进行诉求特征词提取,并运用统计学方法对各部门历史诉求数据构建词袋词频向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国石油大学(华东),未经中国石油大学(华东)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110508564.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:包括套环和预安装夹具的夹持系统
- 下一篇:用于现场设备的可拆卸显示操作模块