[发明专利]一种文件分类方法及装置有效
申请号: | 201710138149.X | 申请日: | 2017-03-09 |
公开(公告)号: | CN106897454B | 公开(公告)日: | 2020-07-03 |
发明(设计)人: | 赵毅强 | 申请(专利权)人: | 北京时间股份有限公司 |
主分类号: | G06F16/16 | 分类号: | G06F16/16;G06F16/583;G06F16/55;G06F16/35;G06K9/62 |
代理公司: | 北京市浩天知识产权代理事务所(普通合伙) 11276 | 代理人: | 宋菲;刘兰兰 |
地址: | 100089 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文件 分类 方法 装置 | ||
1.一种文件分类方法,包括:
获取文件中包含的图片信息;
通过预设的图片分类模型确定与所述图片信息相对应的图片分类结果;
根据所述图片分类结果生成与所述文件相对应的文件特征向量;
通过预设的文件分类模型确定与所述文件特征向量相对应的文件分类结果;
其中,所述根据所述图片分类结果生成与所述文件相对应的文件特征向量的步骤具体包括:
获取所述文件中包含的文本信息,生成与所述文本信息相对应的文本特征向量;
生成与所述图片分类结果相对应的图片特征向量,将所述文本特征向量与所述图片特征向量进行组合,根据组合结果生成所述文件特征向量;
其中,与所述图片分类模型相对应的图片分类总数为N,其中,N为大于2的自然数;所述确定与所述图片信息相对应的图片分类结果的步骤具体包括:分别确定该图片信息属于N个图片分类中的各个图片分类的概率,按照概率从高到低的顺序筛选M个图片分类作为该图片信息的图片分类结果,其中,M为小于N的自然数;
则所述生成与所述图片分类结果相对应的图片特征向量的步骤具体包括:预先为各种图片分类结果分别设置对应的图片分类编号;确定与该图片信息的图片分类结果相对应的图片分类编号,根据所述图片分类编号生成对应的图片特征向量。
2.根据权利要求1所述的方法,其中,所述方法执行之前,进一步包括:
通过机器学习算法对预先获取到的图片训练集进行机器学习,根据学习结果生成所述预设的图片分类模型;其中,所述机器学习算法包括:深度学习算法、以及神经网络算法。
3.根据权利要求1所述的方法,其中,所述生成与所述文本信息相对应的文本特征向量的步骤具体包括:
对所述文本信息进行预处理,根据预处理结果得到多个特征词;
分别为各个特征词赋予对应的权重,根据各个特征词及其权重生成所述文本特征向量。
4.根据权利要求1-3任一所述的方法,其中,所述文件分类模型通过预设的机器学习算法确定,其中,所述机器学习算法包括:线性分类算法、神经网络分类算法、以及深度学习算法。
5.根据权利要求1-3任一所述的方法,其中,所述获取文件中包含的图片信息的步骤具体包括:获取文件中包含的动态图片,提取所述动态图片中包含的至少一个图片帧,分别确定与各个图片帧相对应的图片信息。
6.一种文件分类装置,包括:
获取模块,用于获取文件中包含的图片信息;
图片分类模块,用于通过预设的图片分类模型确定与所述图片信息相对应的图片分类结果;
特征向量模块,用于根据所述图片分类结果生成与所述文件相对应的文件特征向量;
文件分类模块,用于通过预设的文件分类模型确定与所述文件特征向量相对应的文件分类结果;
其中,所述特征向量模块具体包括:
文本特征向量子模块,用于获取所述文件中包含的文本信息,生成与所述文本信息相对应的文本特征向量;
图片特征向量子模块,用于生成与所述图片分类结果相对应的图片特征向量;
组合子模块,用于将所述文本特征向量与所述图片特征向量进行组合,根据组合结果生成所述文件特征向量;
其中,与所述图片分类模型相对应的图片分类总数为N,其中,N为大于2的自然数;所述图片分类模块具体用于:分别确定该图片信息属于N个图片分类中的各个图片分类的概率,按照概率从高到低的顺序筛选M个图片分类作为该图片信息的图片分类结果,其中,M为小于N的自然数;
则所述图片特征向量子模块具体用于:预先为各种图片分类结果分别设置对应的图片分类编号;确定与该图片信息的图片分类结果相对应的图片分类编号,根据所述图片分类编号生成对应的图片特征向量。
7.根据权利要求6所述的装置,其中,进一步包括:
图片分类模型构建模块,用于通过机器学习算法对预先获取到的图片训练集进行机器学习,根据学习结果生成所述预设的图片分类模型;其中,所述机器学习算法包括:深度学习算法、以及神经网络算法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京时间股份有限公司,未经北京时间股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710138149.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:工程BIM进度模型与现场监控对比方法
- 下一篇:一种可配置统计分析的实现方法