[发明专利]文档分类规则的更新方法、装置、设备以及存储介质在审
申请号: | 202011502638.7 | 申请日: | 2020-12-17 |
公开(公告)号: | CN112487194A | 公开(公告)日: | 2021-03-12 |
发明(设计)人: | 钱宇 | 申请(专利权)人: | 平安消费金融有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/289;G06F40/295;G06F40/30;G06K9/62 |
代理公司: | 深圳市明日今典知识产权代理事务所(普通合伙) 44343 | 代理人: | 王杰辉;曹勇 |
地址: | 200000 上海市自由*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文档 分类 规则 更新 方法 装置 设备 以及 存储 介质 | ||
1.一种文档分类规则的更新方法,其特征在于,包括:
获取若干待分类文档的在各个维度中分别对应的维度值;
根据各个维度的当前分类规则以及对应的维度值,在各个维度中对各所述待分类文档进行分类;
检测各维度的分类结果中是否存在有目标维度类别;其中,所述目标维度类别为该类别中的文档数目所占的比例,达到了预设文档数目比例阈值;
根据所述目标维度类别对其所对应的目标维度重新制定分类规则,得到重新制定后的维度等级梯度;
将所述维度等级梯度更新至所述目标维度对应的当前分类规则中,得到新的分类规则。
2.如权利要求1所述的文档分类规则的更新方法,其特征在于,所述根据所述目标维度类别对其所对应的目标维度重新制定分类规则,得到重新制定后的维度等级梯度的步骤,包括:
获取所述目标维度中各文档各自对应的维度值,根据所述文档在各个维度中的所述维度值建立各个维度对应的维度集合;
计算各所述维度集合中每两个维度值的距离;
根据公式计算的所述距离计算每个维度值的密度;其中,ρ(j)表示第j个维度值的密度,c=max[d(j,i)],d(j,i)表示第j个维度值与第i个维度值的距离,max[d(j,i)]表示各维度值中的最大值与最小值之间的距离;
根据公式计算各个维度值的离散度;其中,LOF(j)表示第j个维度值的离散度;
根据公式计算所述维度等级梯度,其中f(x)表示各所述维度值的平均离散度与所述维度等级梯度的关系函数。
3.如权利要求1所述的文档分类规则的更新方法,其特征在于,所述获取若干待分类文档的在各个维度中分别对应的维度值的步骤,包括:
通过正则表达式和分词工具对各所述待分类文档分别进行分词处理,得到对应的多个词语;
根据语义识别技术提取所述词语中的实体名词;
将提取到的所述实体名词进行聚类处理,得到各维度分别对应的实体名词;
基于各个维度分别对应的实体名词计算所述待分类文档在各个维度中的维度值。
4.如权利要求3所述的文档分类规则的更新方法,其特征在于,所述根据各个维度的当前分类规则以及对应的维度值,在各个维度中对各所述待分类文档进行分类的步骤,包括:
根据所述聚类处理后的所述实体名词与维度值的对应关系,得到各所述待分类文档在各个类别中的维度值;
根据所述待分类文档在各个维度中的所述维度值,按照所述当前分类规则进行分类。
5.如权利要求1所述的文档分类规则的更新方法,其特征在于,所述检测各维度的分类结果中是否存在有目标维度类别的步骤,包括:
获取第一维度中各个维度等级分别对应的文档数目;
将各个维度等级的文档数目与所述第一维度中文档的总数目相比,得到各个维度等级对应的所述文档数目比例;
判断各所述文档数目比例是否超过了所述预设文档数目比例阈值;其中,超过了所述预设文档数目比例阈值的文档数目比例所对应的类别为所述目标维度类别。
6.如权利要求1所述的文档分类规则的更新方法,其特征在于,所述根据所述目标维度类别对其所对应的目标维度重新制定分类规则,得到重新制定后的维度等级梯度的步骤,包括:
将文档数目比例超过了其维度等级所对应的文档数目比例阈值的维度等级记为第一维度等级;
获取所述第一维度等级内各个文档所对应的第一维度值;
计算第一维度等级内所有第一维度值的方差;
根据所述方差为所述第一维度等级设置对应的多个子维度等级,从而得到细化后的所述维度等级梯度;其中,各所述子维度等级的范围均在所述第一维度等级的范围内。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安消费金融有限公司,未经平安消费金融有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011502638.7/1.html,转载请声明来源钻瓜专利网。