[发明专利]一种面向手机文档的自动分类方法在审
申请号: | 201910260996.2 | 申请日: | 2019-04-02 |
公开(公告)号: | CN110046264A | 公开(公告)日: | 2019-07-23 |
发明(设计)人: | 余蓓蓓 | 申请(专利权)人: | 云南大学 |
主分类号: | G06F16/45 | 分类号: | G06F16/45;G06F16/55;G06F16/35 |
代理公司: | 成都九鼎天元知识产权代理有限公司 51214 | 代理人: | 韩雪 |
地址: | 650091 云*** | 国省代码: | 云南;53 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种面向手机文档的自动分类方法,该方法首先构建文档类库,将文档类库分为训练集和测试集,并从文档类库的训练集分别提取出其中的文本内容以及图像内容,依据文档类库以及初始文档类库标签对应建立语料类库和图像类库,然后分别对语料类库和图像类库中的文本内容和图像内容进行数据预处理后经深度学习得到文本预测标签向量和图像预测标签向量,最后使用加权融合公式,将图像标签向量和文本标签向量聚合,并进行归一化后得到文档预测标签概率,将文档预测标签概率与预设阈值进行比较,完成文档的自动分类。本发明以图像内容以及文本内容同时作为指标衡量文档分类结果,实现非结构化文档快速有效的分类。 | ||
搜索关键词: | 文档 类库 图像内容 文本内容 自动分类 标签概率 标签向量 训练集 手机 向量 语料 非结构化文档 图像 数据预处理 加权融合 图像标签 图像预测 文本标签 文本预测 文档分类 测试集 归一化 预测 构建 预设 聚合 标签 分类 衡量 学习 | ||
【主权项】:
1.一种面向手机文档的自动分类方法,其特征在于,包括:S1:收集并整理最常用于文档分类的多个标签作为构建文档类库的关键词,按照一个所述标签对应一个所述文档类库的规则构建多个文档类库,所述文档类库包含多个常用词为标签的文档类库以及一个标签为未分类的文档类库,并将所述文档类库划分为训练集和测试集;S2:从所述文档类库的训练集中分别提取出其中的文本内容和图像内容,并根据每个所述文档类库以及其对应的标签,对应建立语料类库和图像类库,并且将所述语料类库和图像类库均划分为训练集和测试集;S3:对所述语料类库和图像类库的测试集中的文本内容进行数据预处理,构建词典,并通过构建文本分类模型得到文本预测标签向量;对所述图像类库中的训练集中的图像内容进行数据预处理,并通过构建图像分类模型得到图像预测标签向量;S4:将文本预测标签向量和图像预测标签向量通过加权融合后得文档预测标签向量,所述文档预测标签向量通过归一化处理后得到文档预测标签概率。S5:将文档预测标签的概率与预设的阈值进行比较,当所述文档预测标签概率大于或等于所述阈值时,将所述文档归入文档预测标签所对应的常用分类词的文档类库中,当所述文档预测标签概率小于所述阈值时,将所述文档归入标签为未分类的文档类库中。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于云南大学,未经云南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910260996.2/,转载请声明来源钻瓜专利网。