[发明专利]一种面向手机文档的自动分类方法在审
申请号: | 201910260996.2 | 申请日: | 2019-04-02 |
公开(公告)号: | CN110046264A | 公开(公告)日: | 2019-07-23 |
发明(设计)人: | 余蓓蓓 | 申请(专利权)人: | 云南大学 |
主分类号: | G06F16/45 | 分类号: | G06F16/45;G06F16/55;G06F16/35 |
代理公司: | 成都九鼎天元知识产权代理有限公司 51214 | 代理人: | 韩雪 |
地址: | 650091 云*** | 国省代码: | 云南;53 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文档 类库 图像内容 文本内容 自动分类 标签概率 标签向量 训练集 手机 向量 语料 非结构化文档 图像 数据预处理 加权融合 图像标签 图像预测 文本标签 文本预测 文档分类 测试集 归一化 预测 构建 预设 聚合 标签 分类 衡量 学习 | ||
本发明公开了一种面向手机文档的自动分类方法,该方法首先构建文档类库,将文档类库分为训练集和测试集,并从文档类库的训练集分别提取出其中的文本内容以及图像内容,依据文档类库以及初始文档类库标签对应建立语料类库和图像类库,然后分别对语料类库和图像类库中的文本内容和图像内容进行数据预处理后经深度学习得到文本预测标签向量和图像预测标签向量,最后使用加权融合公式,将图像标签向量和文本标签向量聚合,并进行归一化后得到文档预测标签概率,将文档预测标签概率与预设阈值进行比较,完成文档的自动分类。本发明以图像内容以及文本内容同时作为指标衡量文档分类结果,实现非结构化文档快速有效的分类。
技术领域
本发明涉及文档管理领域,特别是涉及一种面向手机文档的自动分类方法。
背景技术
随着互联网的发展,数字化办公也在随其不断发展,但是在这个过程中也逐渐暴露出一些问题。而其中最明显的就是大量数字化办公带来的大量文件与人们固有的惰性所带来的文档积压,从而使得人们的文档分类混乱不堪,降低了办公效率和办公体验。根据国家档案局的调查显示:已有近80%的中央和国家机关、中央企业采用办公自动化或电子政务系统,产生各类电子文件近2亿件。由此不难预见,在不久的将来,电子文件将成为政府、企事业信息资源的主要承载体和表现形式。针对手机上的文档驳杂、管理与分类混乱等问题,致力于文档管理自动化,建立一个文档自动分类管理系统,使人们对自己手机中的文件一目了然,方便对手机中的文档进行分类和查找。不仅承载了对于文件的有效管理功能,更关键的是还对文档实现了文本智能化自动分类,使庞大驳杂的本地文档自动化、智能化归类。
而目前为止,非结构化文档(Word/PDF/PPT)分类只局限于依据文档中的文本进行分类,并且多数方法研究的重点是自然语言处理(NLP)。往往忽视了文档中图像的存在,但是图像也是人类主要的信息源之一,其中可能包含了该文件的重要信息,是不能被忽略的。并且在以图像为主的非结构化文档文件中,图像内容在分类时也是一个重要的影响因素。现有的办公软件注重文本、表格等过程上的处理,但真正注重对大量文档进行自动归纳分类的系统在市场上还是一片空白,并且现有文档分类方法,还存在着不足,存在有待研究改进的地方。
发明内容
为解决上述技术问题,本发明提供一种面向手机文档的自动分类方法。
为解决上述技术问题,本发明采用的一个技术方案是:提供一种面向手机文档的自动分类方法,包括S1:收集并整理最常用于文档分类的多个标签作为构建文档类库的关键词,按照一个所述标签对应一个所述文档类库的规则构建多个文档类库,所述文档类库包含多个常用词为标签的文档类库以及一个标签为未分类的文档类库,并将所述文档类库划分为训练集和测试集;
S2:从所述文档类库的训练集中分别提取出其中的文本内容和图像内容,并根据每个所述文档类库以及其对应的标签,对应建立语料类库和图像类库,并且将所述语料类库和图像类库均划分为训练集和测试集;
S3:对所述语料类库和图像类库的测试集中的文本内容进行数据预处理,构建词典,并通过构建文本分类模型得到文本预测标签向量;对所述图像类库中的训练集中的图像内容进行数据预处理,并通过构建图像分类模型得到图像预测标签向量;
S4:将文本预测标签向量和图像预测标签向量通过加权融合后得文档预测标签向量,所述文档预测标签向量通过归一化处理后得到文档预测标签概率;
S5:将文档预测标签的概率与预设的阈值进行比较,当所述文档预测标签概率大于或等于所述阈值时,将所述文档归入文档预测标签所对应的常用分类词的文档类库中,当所述文档预测标签概率小于所述阈值时,将所述文档归入标签为未分类的文档类库中。
优选的,所述步骤S1中还包括一个文档在多个文档类库中出现的情形,即假设待分类文档为Xi,其中Yi为待分类文档Xi所对应的文档类库的集合,j为所有可能的文档类库个数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于云南大学,未经云南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910260996.2/2.html,转载请声明来源钻瓜专利网。