[发明专利]文件分类方法、装置、计算机设备及计算机可读介质有效
申请号: | 201711023891.2 | 申请日: | 2017-10-27 |
公开(公告)号: | CN107729520B | 公开(公告)日: | 2020-12-01 |
发明(设计)人: | 谢永恒;肖琪;火一莽;万月亮 | 申请(专利权)人: | 北京锐安科技有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/14;G06K9/62 |
代理公司: | 北京品源专利代理有限公司 11332 | 代理人: | 孟金喆 |
地址: | 100044 北京市海淀区西小口*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文件 分类 方法 装置 计算机 设备 可读 介质 | ||
1.一种文件分类方法,其特征在于,包括:
获取待分类文件的文本信息,对所述文本信息进行预处理,确定至少一个特征词汇,其中,预处理包括对所述文本信息进行去重处理、分词处理和错误修正处理;
确定每一个特征词汇在各文件类型中的统计数据,所述统计数据包括所述特征词汇在各文件类型对应样本集的词频和所述对应样本集的样本数;
基于费舍尔分类器和所述统计数据,确定所述待分类文件属于各文件类型的概率,根据各文件类型的概率确定所述待分类文件的目标文件类型;
若待分类文件属于目标文件类型的概率大于第一预设阈值,则根据所述待分类文件更新所述目标文件类型的样本集;
其中,基于费舍尔分类器和所述统计数据,确定所述待分类文件属于各文件类型的概率,包括:
基于费舍尔分类器和所述统计数据,获取每一个所述特征词汇在各文件类型中的概率;
基于费舍尔算法和每一个所述特征词汇在各文件类型的概率确定所述待分类文件属于各文件类型的概率;
其中,基于费舍尔算法和每一个所述特征词汇在各文件类型的概率确定所述待分类文件属于各文件类型的概率,包括:
若计算所述待分类文件属于各文件类型中当前文件类型的概率,则基于费舍尔算法将每一个特征词在当前文件类型的概率相乘,然后取自然对数,再将结果乘以-2,将计算结果传给倒置对数卡方函数,得到一组随机概率中的最大值即为待分类文件在当前文件类型的概率;
其中,当所述样本集为表格形式时,表格中记载有对应文件类型样本集的分词的词频,以及文件类型样本集的样本数;
相应的,所述统计数据包括所述特征词汇在各文件类型对应样本集的词频,包括:比对所述特征词汇与各表格中的分词是否一致,若一致则将所述分词的词频作为所述特征词汇在各文件类型对应样本集的词频;
相应的,所述根据所述待分类文件更新所述目标文件类型的样本集,包括:根据所述分类文件更新所述目标文件类型的表格。
2.根据权利要求1所述的方法,其特征在于,对所述文本信息进行预处理,确定至少一个特征词汇,包括:
对文本信息进行去重处理,根据预设词表对去重后的文本信息进行分词处理,获取至少一个分词;
删除所述至少一个分词中的停用词和单字词;
检测是否存在失败分词;
若是,则将所述失败分词与至少一个相邻分词进行组合,形成组合词,或将所述失败分词进行拆分,形成拆分词,将所述组合词或所述拆分词中的正确分词确定为特征词汇,并将所述正确分词添加至所述预设词表;
若否,则将删除停用词和单字词后的所述至少一个分词确定为特征词汇。
3.根据权利要求1所述的方法,其特征在于,根据各文件类型的概率确定所述待分类文件的目标文件类型,包括:
检测是否存在目标文件类型,其中,待分类文件属于所述目标文件类型的概率与属于其他文件类型概率的差值均大于第二预设阈值,若是,则确定目标文件类型为所述待分类文件的文件类型。
4.根据权利要求 1所述的方法,其特征在于,所述方法还包括:
若不存在所述目标文件类型,则将所述待分类文件属于各文件类型的概率进行排序,筛选预设排序范围的文件类型,确定为所述待分类文件的候选文件类型供用户选择;
根据用户的反馈信息确定得到待分类文件的目标文件类型,并根据所述待分类文件更新所述目标文件类型的样本集。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京锐安科技有限公司,未经北京锐安科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711023891.2/1.html,转载请声明来源钻瓜专利网。