[发明专利]文件分类方法、装置、计算设备及计算机存储介质在审
申请号: | 201711071496.1 | 申请日: | 2017-11-03 |
公开(公告)号: | CN107748898A | 公开(公告)日: | 2018-03-02 |
发明(设计)人: | 张康;陈强 | 申请(专利权)人: | 北京奇虎科技有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 北京市浩天知识产权代理事务所(普通合伙)11276 | 代理人: | 宋菲,陈翠 |
地址: | 100088 北京市西城区新*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文件 分类 方法 装置 计算 设备 计算机 存储 介质 | ||
技术领域
本发明涉及互联网技术领域,具体涉及一种文件分类方法、装置、计算设备及计算机存储介质。
背景技术
随着网络技术飞速发展,互联网中存在各种文件。为了帮助用户有效地检索相关的文件或迅速获取用户感兴趣的文件,就需要一些分类工具对大量的文件进行有效的分类,以某明星的粉丝为例,粉丝仅关注有该明星的文件,若能对文件进行分类,确定文件中是否包含粉丝关注的明星,则可以节省粉丝的时间,无需粉丝阅读全部的文件来确定文件是否包含相应的明星。
现有技术中,采用了人工对文件进行分类的方法,采用人工分类方法需要投入大量的人力,增加了分类成本,而且分类效率低;虽然现有一些文件元信息进行分类的方法,但是由于很多文件的元信息存在虚假成分,导致分类的准确率低下。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的文件分类方法、文件分类装置、计算设备及计算机存储介质。
根据本发明的一个方面,提供了一种文件分类方法,该方法基于经过训练的特征抽取网络、以及经过训练的文件分类模型执行,该方法包括:
获取待分类文件;
将待分类文件输入至特征抽取网络,得到与待分类文件对应的预设维度的文件特征;
基于预设维度的文件特征利用文件分类模型进行分类预测,得到文件对应的分类结果。
可选地,待分类文件为视频文件和/或音频文件;
将待分类文件输入至特征抽取网络,得到与待分类文件对应的预设维度的文件特征进一步包括:
对待分类视频文件和/或音频文件进行解码处理,得到多个文件帧,其中,文件帧为视频帧和/或音频帧;
针对多个文件帧的每一文件帧,将文件帧输入至特征抽取网络,得到与该文件帧对应的预设维度的帧特征;
利用预设算法对多个文件帧的帧特征进行运算处理,得到与待分类视频文件和/或音频文件对应的预设维度的文件特征。
可选地,利用预设算法对多个文件帧的帧特征进行运算处理,得到与待分类视频文件和/或音频文件对应的预设维度的文件特征进一步包括:
计算多个文件帧的帧特征的特征值的平均值,得到与待分类视频文件和/或音频文件对应的预设维度的文件特征。
可选地,在对待分类视频文件和/或音频文件进行解码处理,得到多个文件帧之后,方法还包括:
利用预设抽帧策略从多个文件帧中抽取至少一个文件帧。
可选地,文件分类模型训练所用的样本包含:样本库存储的多个类别的文件样本以及与文件样本对应的文件分类标注结果。
可选地,文件分类模型的训练过程包括:
将文件样本输入至特征抽取网络,得到与文件样本对应的预设维度的文件特征;
将文件特征输入至文件分类模型进行训练,得到与文件样本对应的文件分类结果;
根据文件分类结果与文件分类标注结果之间的损失,得到文件分类模型损失函数,根据文件分类模型损失函数更新文件分类模型的模型参数;
迭代执行上述步骤,直至满足预定收敛条件。
可选地,预定收敛条件包括:迭代次数达到预设迭代次数;和/或,文件分类模型损失函数的输出值小于预设阈值。
根据本发明的另一方面,提供了一种文件分类装置,该装置基于经过训练的特征抽取网络、以及经过训练的文件分类模型执行,该装置包括:
获取模块,适于获取待分类文件;
特征抽取模块,适于将待分类文件输入至特征抽取网络,得到与待分类文件对应的预设维度的文件特征;
分类预测模块,适于基于预设维度的文件特征利用文件分类模型进行分类预测,得到文件对应的分类结果。
可选地,待分类文件为视频文件和/或音频文件;
该特征抽取模块进一步包括:解码处理单元,适于对待分类视频文件和/或音频文件进行解码处理,得到多个文件帧,其中,文件帧为视频帧和/或音频帧;
第一特征抽取单元,适于针对多个文件帧的每一文件帧,将文件帧输入至特征抽取网络,得到与该文件帧对应的预设维度的帧特征;
运算处理单元,适于利用预设算法对多个文件帧的帧特征进行运算处理,得到与待分类视频文件和/或音频文件对应的预设维度的文件特征。
可选地,运算处理单元进一步适于:计算多个文件帧的帧特征的特征值的平均值,得到与待分类视频文件和/或音频文件对应的预设维度的文件特征。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京奇虎科技有限公司,未经北京奇虎科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711071496.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种观光车的电池安装仓
- 下一篇:一种电动沙滩车抗震耐热电池