[发明专利]业务文书分类方法、装置、设备及存储介质在审
申请号: | 202111272362.2 | 申请日: | 2021-10-29 |
公开(公告)号: | CN114003720A | 公开(公告)日: | 2022-02-01 |
发明(设计)人: | 叶思涛 | 申请(专利权)人: | 平安国际智慧城市科技股份有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/289;G06N3/04 |
代理公司: | 深圳市沃德知识产权代理事务所(普通合伙) 44347 | 代理人: | 高杰;于志光 |
地址: | 518000 广东省深圳市前海深港合*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 业务 文书 分类 方法 装置 设备 存储 介质 | ||
本发明涉及人工智能技术,揭露一种业务文书分类方法,包括:对数据清洗后得到的初始文书文本进行向量化,得到文本表征向量,对文本表征向量进行聚类和标注处理,并将标注处理后得到的文本聚类簇作为训练数据集,将训练数据集输入预设的文本分类模型中进行文本分类,得到预测分类结果,根据预测分类结果和预设的真实分类结果进行比对得到的比对结果对文本分类模型进行优化,得到标准分类模型。将待分类文书输入至标准分类模型中,得到待分类文书对应的类别。此外,本发明还涉及区块链技术,文书聚类簇可存储于区块链的节点。本发明还提出一种业务文书分类装置、电子设备以及存储介质。本发明可以提高业务文书分类的效率。
技术领域
本发明涉及人工智能技术领域,尤其涉及一种业务文书分类方法、装置、电子设备及计算机可读存储介质。
背景技术
机关在进行业务处理时通常需要交叉查阅来源于不同数据源的文书材料,大部分文书材料为无类别信息,这就导致了文书材料混作一团。目前,机关人员对这部分文书材料进行分类编目后,才能将这部分文书材料交由对应的业务部门进行处理,尚未实现系统自动分类编目,过于依赖人工分类编目,进而影响后续办案质效。而且人工分类编目过程需要耗费较多人力资源,需具备相应专业技术能力才能较为高效、准确地对文书材料进行分类编目。因此亟待提出一种高效的文书分类方法。
发明内容
本发明提供一种业务文书分类方法、装置及计算机可读存储介质,其主要目的在于提高文书分类的效率。
为实现上述目的,本发明提供的一种业务文书分类方法,包括:
获取原始文书文本,对所述原始文书文本进行数据清洗,得到初始文书文本;
对所述初始文书文本进行向量化,得到文本表征向量,基于预设的聚类算法对所述文本表征向量进行聚类处理,得到多个文书聚类簇;
对多个所述文本聚类簇进行标注处理,并将标注处理后的文本聚类簇作为训练数据集;
将所述训练数据集输入预设的文本分类模型中进行文本分类,得到预测分类结果,根据所述预测分类结果和预设的真实分类结果进行比对得到的比对结果对所述文本分类模型进行优化,得到标准分类模型;
获取待分类文书,将所述待分类文书输入至所述标准分类模型中,得到所述待分类文书对应的类别。
可选地,所述对所述初始文书文本进行向量化,得到文本表征向量,包括:
对所述初始文书文本进行分词处理及去停用词处理,得到初始文本序列;
利用预设的词嵌入算法计算得到所述初始文本序列中每个词的静态词向量;
对所述每个词的静态词向量进行平均池化,得到文本表征向量。
可选地,所述基于预设的聚类算法对所述文本表征向量进行聚类处理,得到多个文书聚类簇,包括:
获取多个初始聚类中心,分别计算所述文本表征向量与多个所述初始聚类中心之间的距离值;
将所述最小距离值所对应的所述初始聚类中心作为待定聚类簇,并将所述文本表征向量归为所述待定聚类簇中;
根据所述待定聚类簇中包含的所述文本表征向量重新计算所述待定聚类簇的聚类中心,重复执行聚类操作,直至多个所述文本表征向量分配完毕,得到多个文书聚类簇。
可选地,所述将所述训练数据集输入预设的文本分类模型中进行文本分类,得到预测分类结果,包括:
利用所述文本分类模型中的卷积层对所述训练数据集进行卷积处理,得到卷积数据集;
将所述卷积数据集输入所述文本分类模型中的池化层中进行池化处理,得到池化数据集;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安国际智慧城市科技股份有限公司,未经平安国际智慧城市科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111272362.2/2.html,转载请声明来源钻瓜专利网。