[发明专利]文档处理方法、装置、电子设备及计算机可读存储介质在审
申请号: | 202010884957.2 | 申请日: | 2020-08-28 |
公开(公告)号: | CN112099870A | 公开(公告)日: | 2020-12-18 |
发明(设计)人: | 陈嘉航 | 申请(专利权)人: | 深圳前海微众银行股份有限公司 |
主分类号: | G06F9/445 | 分类号: | G06F9/445;G06F8/30;G06F21/60 |
代理公司: | 北京派特恩知识产权代理有限公司 11270 | 代理人: | 高天华;张颖玲 |
地址: | 518027 广东省深圳市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文档 处理 方法 装置 电子设备 计算机 可读 存储 介质 | ||
1.一种文档处理方法,其特征在于,所述方法包括:
获取待处理文档;
接收第三方平台发送的配置文件,所述配置文件包括待处理文档的目标特征的标识和所述第三方平台提供的文件包的路径信息;所述文件包包括表征所述目标特征的特征提取方法的第一信息;
在所述目标特征的标识与默认特征的标识不同的情况下,基于所述文件包的路径信息获取所述文件包;
基于所述文件包中的所述第一信息,在所述待处理文档中提取出所述目标特征。
2.根据权利要求1所述的文档处理方法,其特征在于,所述文件包包括自定义类,所述第一信息位于自定义类中;
所述方法还包括:通过程序语言的反射机制,加载所述文件包中的所述自定义类,并从加载的所述自定义类中获取所述第一信息。
3.根据权利要求2所述的文档处理方法,其特征在于,所述配置文件还包括第二信息,所述第二信息包括:所述文件包的标识和/或所述自定义类的标识;
所述通过程序语言的反射机制,加载所述文件包中的所述自定义类,包括:
在确定所述配置文件中的第二信息为预先与所述第三方平台约定的信息的情况下,通过所述程序语言的反射机制,加载所述文件包中的所述自定义类。
4.根据权利要求3所述的文档处理方法,其特征在于,所述方法还包括:
获取预先设置的所述第二信息的加密方式;
基于所述第二信息的加密方式对应的解密方式,对所述配置文件中的加密信息进行解密,得到所述第二信息;其中,所述加密信息是基于所述加密方式对所述第二信息进行加密得到的。
5.根据权利要求2所述的文档处理方法,其特征在于,所述方法还包括:
预先确定抽象类,设置所述自定义类继承所述预先确定的抽象类;
所述从加载的所述自定义类中获取所述第一信息,包括:
将所述自定义类实例化为对象,在所述对象属于所述抽象类的情况下,从加载的所述自定义类中获取所述第一信息。
6.根据权利要求1所述的文档处理方法,其特征在于,所述方法还包括:
在所述目标特征的标识与默认特征的标识相同的情况下,基于预先确定的所述默认特征的提取方式,在所述待处理文档中提取出所述目标特征。
7.根据权利要求1至6任一项所述的文档处理方法,其特征在于,所述方法还包括:
基于所述目标特征对所述待处理文档进行质量评分,得出所述待处理文档的质量评分值。
8.根据权利要求7所述的文档处理方法,其特征在于,所述目标特征包括至少两个特征;所述配置文件包括所述至少两个特征中每个特征的权重信息;
所述基于所述目标特征对所述待处理文档进行质量评分,得出所述待处理文档的质量评分值,包括:
基于所述至少两个特征中各个特征的权重信息,对所述至少两个特征中各个特征进行加权求和运算,得出所述待处理文档的质量评分值。
9.根据权利要求8所述的文档处理方法,其特征在于,所述在所述待处理文档中提取出所述目标特征,包括:
将所述待处理文档的字数按照预先确定的多个字数区间进行离散化数据处理,得到长度相关特征,每个所述字数区间对应一个取值;提取所述待处理文档的文档特征向量,将所述待处理文档的文档特征向量与预设模板的文档特征向量的余弦相似度作为模板相关特征;根据所述待处理文档中预设词性的词占待处理文档所有词的数量比例,确定词性相关特征;
将长度相关特征、模板相关特征和词性相关特征中的至少两个作为所述目标特征。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳前海微众银行股份有限公司,未经深圳前海微众银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010884957.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:应用程序包中的特征提取方法及设备
- 下一篇:一种数据处理方法和装置