[发明专利]业务文书分类方法、装置、设备及存储介质在审

申请号：	202111272362.2	申请日：	2021-10-29
公开（公告）号：	CN114003720A	公开（公告）日：	2022-02-01
发明（设计）人：	叶思涛	申请（专利权）人：	平安国际智慧城市科技股份有限公司
主分类号：	G06F16/35	分类号：	G06F16/35;G06F40/289;G06N3/04
代理公司：	深圳市沃德知识产权代理事务所(普通合伙) 44347	代理人：	高杰;于志光
地址：	518000 广东省深圳市前海深港合***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	业务文书分类方法装置设备存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明涉及人工智能技术，揭露一种业务文书分类方法，包括：对数据清洗后得到的初始文书文本进行向量化，得到文本表征向量，对文本表征向量进行聚类和标注处理，并将标注处理后得到的文本聚类簇作为训练数据集，将训练数据集输入预设的文本分类模型中进行文本分类，得到预测分类结果，根据预测分类结果和预设的真实分类结果进行比对得到的比对结果对文本分类模型进行优化，得到标准分类模型。将待分类文书输入至标准分类模型中，得到待分类文书对应的类别。此外，本发明还涉及区块链技术，文书聚类簇可存储于区块链的节点。本发明还提出一种业务文书分类装置、电子设备以及存储介质。本发明可以提高业务文书分类的效率。

技术领域

本发明涉及人工智能技术领域，尤其涉及一种业务文书分类方法、装置、电子设备及计算机可读存储介质。

背景技术

机关在进行业务处理时通常需要交叉查阅来源于不同数据源的文书材料，大部分文书材料为无类别信息，这就导致了文书材料混作一团。目前，机关人员对这部分文书材料进行分类编目后，才能将这部分文书材料交由对应的业务部门进行处理，尚未实现系统自动分类编目，过于依赖人工分类编目，进而影响后续办案质效。而且人工分类编目过程需要耗费较多人力资源，需具备相应专业技术能力才能较为高效、准确地对文书材料进行分类编目。因此亟待提出一种高效的文书分类方法。

发明内容

本发明提供一种业务文书分类方法、装置及计算机可读存储介质，其主要目的在于提高文书分类的效率。

为实现上述目的，本发明提供的一种业务文书分类方法，包括：

获取原始文书文本，对所述原始文书文本进行数据清洗，得到初始文书文本；

对所述初始文书文本进行向量化，得到文本表征向量，基于预设的聚类算法对所述文本表征向量进行聚类处理，得到多个文书聚类簇；

对多个所述文本聚类簇进行标注处理，并将标注处理后的文本聚类簇作为训练数据集；

将所述训练数据集输入预设的文本分类模型中进行文本分类，得到预测分类结果，根据所述预测分类结果和预设的真实分类结果进行比对得到的比对结果对所述文本分类模型进行优化，得到标准分类模型；

获取待分类文书，将所述待分类文书输入至所述标准分类模型中，得到所述待分类文书对应的类别。

可选地，所述对所述初始文书文本进行向量化，得到文本表征向量，包括：

对所述初始文书文本进行分词处理及去停用词处理，得到初始文本序列；

利用预设的词嵌入算法计算得到所述初始文本序列中每个词的静态词向量；

对所述每个词的静态词向量进行平均池化，得到文本表征向量。