[发明专利]电子文件的处理方法、装置、电子设备及机器可读介质在审
申请号: | 202010515206.3 | 申请日: | 2020-06-08 |
公开(公告)号: | CN111782601A | 公开(公告)日: | 2020-10-16 |
发明(设计)人: | 李波;胡伯良;王学进 | 申请(专利权)人: | 北京海泰方圆科技股份有限公司 |
主分类号: | G06F16/16 | 分类号: | G06F16/16;G06F16/14 |
代理公司: | 北京润泽恒知识产权代理有限公司 11319 | 代理人: | 莎日娜 |
地址: | 100094 北京市海淀区东北旺西路*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 电子 文件 处理 方法 装置 电子设备 机器 可读 介质 | ||
1.一种电子文件的处理方法,其特征在于,应用于包含语言处理模型的分类系统,所述分类系统与文件管理系统通信,所述分类系统设有用户预置的分类列表,所述分类列表包含多个类别,所述方法包括:
获取用户发送的电子文件;
调用所述语言处理模型从所述电子文件提取一个或多个关键词;
按照所述多个类别在所述分类列表的排列顺序,将所述一个或多个关键词分别与每个所述类别依次作匹配计算,记录每个类别对应的文件相关度,得到多个文件相关度;
从所述多个文件相关度提取数值最高的文件相关度为目标文件相关度;
获取并向所述文件管理系统发送所述目标文件相关度对应的目标类别。
2.根据权利要求1所述的方法,其特征在于,所述将所述一个或多个关键词分别与每个所述类别依次作匹配计算,记录每个类别对应的文件相关度,得到多个文件相关度,包括:
采用所述一个或多个关键词分别与每个所述类别依次作匹配计算,得到并记录每个类别对应的一个或多个类别相关度;
分别对所述每个类别对应的一个或多个类别相关度作加权平均计算,得到每个类别对应的文件相关度;
分别记录所述每个类别对应的文件相关度,得到所述多个类别对应的多个文件相关度。
3.根据权利要求1所述的方法,其特征在于,所述调用所述语言处理模型从所述预处理文件提取一个或多个关键词,包括:
调用所述语言处理模型对所述电子文件作分词处理,得到多个文件分词;
按照所述分类规则,从所述多个文件分词中提取一个或多个关键词。
4.根据权利要求1所述的方法,其特征在于,所述分类系统还设有用户预置的分类规则;
在所述调用所述语言处理模型从所述电子文件提取一个或多个关键词的步骤前,所述方法还包括:
判断所述电子文件是否满足所述分类规则对应的条件;
若所述电子文件满足所述分类规则对应的条件,则按照所述分类规则对电子文件进行预处理。
5.一种电子文件的处理装置,其特征在于,应用于包含语言处理模型的分类系统,所述分类系统与文件管理系统通信,所述分类系统设有用户预置的分类列表,所述分类列表包含多个类别,所述装置包括:位于所述分类系统的获取模块、调用模块、计算模块、提取模块以及发送模块;
获取模块,用于获取用户发送的电子文件;
调用模块,用于调用所述语言处理模型从所述电子文件提取一个或多个关键词;
计算模块,用于按照所述多个类别在所述分类列表的排列顺序,将所述一个或多个关键词分别与每个所述类别依次作匹配计算,记录每个类别对应的文件相关度,得到多个文件相关度;
提取模块,用于从所述多个文件相关度提取数值最高的文件相关度为目标文件相关度;
发送模块,用于获取并向所述文件管理系统发送所述目标文件相关度对应的目标类别。
6.根据权利要求5所述的装置,其特征在于,所述计算模块,包括:
匹配计算模块,用于采用所述一个或多个关键词分别与每个所述类别依次作匹配计算,得到并记录每个类别对应的一个或多个类别相关度;
加权平均计算模块,用于分别对所述每个类别对应的一个或多个类别相关度作加权平均计算,得到每个类别对应的文件相关度;
记录模块,用于分别记录所述每个类别对应的文件相关度,得到所述多个类别对应的多个文件相关度。
7.根据权利要求5所述的装置,其特征在于,所述提取模块,包括:
分词处理模块,用于调用所述语言处理模型对所述电子文件作分词处理,得到多个文件分词;
提取关键词模块,用于按照所述分类规则,从所述多个文件分词中提取一个或多个关键词。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京海泰方圆科技股份有限公司,未经北京海泰方圆科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010515206.3/1.html,转载请声明来源钻瓜专利网。