[发明专利]一种文本快速分类方法和装置在审
申请号: | 202110508564.6 | 申请日: | 2021-05-11 |
公开(公告)号: | CN113672725A | 公开(公告)日: | 2021-11-19 |
发明(设计)人: | 黄伟;刘昕;李弟诚;项荣鑫;王烈冲;赵庆齐 | 申请(专利权)人: | 中国石油大学(华东) |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/33;G06F16/332;G06K9/62 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 266580 山*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提出了一种基于主题模型结合线性判别的文本快速分类方法和装置。采用基于“词袋词频向量+PCA+线性判别+相似度计算”的主题模型结合线性判别快速准确发现新诉求数据所属办理部门。本方法主要通过基于已经获取到的历史诉求数据进行数据预处理,主要包括空缺值清洗、数据规范化的操作。根据规范化数据在实际情况下所属的不同办理部门对数据进行分组,对分组后的各办理部门数据采用jieba分词进行特征词提取,并运用统计学方法构建词袋词频向量,使用基于数据降维的PCA方法,训练各部门数据和总体数据,形成各部门对应的主题模型和总体数据的词‑主题矩阵,然后利用线性判别方法训练总体数据的词‑主题矩阵建立线性判别标准。获取一条新来诉求后,通过线性判别方法确定前3个候选分类。并对候选分类进行重叠关键词消除和相似度计算对其进行匹配预测,从而快速准确预测该诉求数据所属办理部门。 | ||
搜索关键词: | 一种 文本 快速 分类 方法 装置 | ||
【主权项】:
暂无信息
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国石油大学(华东),未经中国石油大学(华东)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/202110508564.6/,转载请声明来源钻瓜专利网。
- 上一篇:包括套环和预安装夹具的夹持系统
- 下一篇:用于现场设备的可拆卸显示操作模块