[发明专利]对文档进行分类的方法、电子设备和计算机程序产品有效
申请号: | 201810362310.6 | 申请日: | 2018-04-20 |
公开(公告)号: | CN110390094B | 公开(公告)日: | 2023-05-23 |
发明(设计)人: | 刘威扬;滕康;刘原一;张增杰;张之剑 | 申请(专利权)人: | 伊姆西IP控股有限责任公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/216;G06F40/30 |
代理公司: | 北京市金杜律师事务所 11256 | 代理人: | 王茂华;李春辉 |
地址: | 美国马*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文档 进行 分类 方法 电子设备 计算机 程序 产品 | ||
本公开的实施例涉及用于对文档进行分类的方法、电子设备和计算机程序产品。该方法包括确定与文档类别相关联的一个或多个关键词和对应权重。该方法还包括至少基于一个或多个关键词在文档的字段中出现的频率以及权重,确定文档相对于一个或多个关键词的得分。此外,该方法还可以响应于文档的得分高于阈值,确定文档属于该文档类别。本公开的实施例可以实现对文档的自动分类。
技术领域
本公开的实施例总体涉及数据分类,具体涉及用于对文档进行分类的方法、电子设备和计算机程序产品。
背景技术
虽然目前的搜索引擎将会从不同的存储服务器收集大量备份数据并且提供多种复杂且先进的搜索查询,但是仍然不方便终端用户对那些备份文档进行分类和定位。在某些情况下,终端用户甚至无法确切知道要搜索什么,以及应该使用什么样的关键词。终端用户只是想要通过浏览特定搜索结果集而通过智能指示来获得关于何种内容在备份内的一般概念。
为了缓解这种问题并且满足终端用户的需求,一个选项是让某个查看者在预览每个项目之后手动地对搜索结果集中的内容进行分类并且添加标签。然而,由于不同人可能具有不同的主观标准,所以终端用户添加标签是不准确的。此外,由于数量巨大不可能手动地给所有结果加标签,因而对于那些未加标签的结果,被忽视的可能性将大大增加。因此,这并不是理想的解决方案。
发明内容
本公开的实施例提供了用于对文档进行分类的方法、电子设备和计算机程序产品。
在本公开的第一方面,提供了一种对文档进行分类的方法。该方法包括确定与文档类别相关联的一个或多个关键词和对应权重。该方法还包括至少基于一个或多个关键词在文档的字段中出现的频率以及权重,确定文档相对于一个或多个关键词的得分。此外,该方法还可以响应于文档的得分高于阈值,确定文档属于该文档类别。
在本公开的第二方面,提供了一种电子设备。该电子设备包括至少一个处理单元和至少一个存储器。至少一个存储器被耦合到至少一个处理单元并且存储由至少一个处理单元执行的指令。该指令当由至少一个处理单元执行时,使得电子设备执行以下动作:确定与文档类别相关联的一个或多个关键词和对应权重;至少基于一个或多个关键词在文档的字段中出现的频率以及权重,确定文档相对于一个或多个关键词的得分;以及响应于文档的得分高于阈值,确定文档属于该文档类别。
在本公开的第三方面,提供了计算机程序产品。该计算机程序产品被有形地存储在非瞬态计算机可读介质上并且包括机器可执行指令。机器可执行指令在被执行时使得机器执行根据本公开的第一方面所描述的方法的任意步骤。
提供发明内容部分是为了以简化的形式来介绍对概念的选择,它们在下文的具体实施方式中将被进一步描述。发明内容部分无意标识本公开的关键特征或主要特征,也无意限制本公开的范围。
附图说明
通过结合附图对本公开示例性实施例进行更详细的描述,本公开的上述以及其它目的、特征和优势将变得更加明显,其中在本公开示例性实施例中,相同的参考标号通常代表相同部件。
图1示出了用于对文档进行分类的架构的示意图;
图2示出了根据本公开的一个实施例的对文档进行分类的方法的流程图;
图3示出了根据本公开的一个实施例的用于基于得分确定文档是否属于文档类别的方法的流程图;
图4示出了根据本公开的一个实施例的查询结果的示意图;
图5示出了根据本公开的一个实施例的用于对文档进行分类的装置的框图;以及
图6示出了可以用来实施本公开的实施例的示例设备的示意性框图。
具体实施方式
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于伊姆西IP控股有限责任公司,未经伊姆西IP控股有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810362310.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种语言模型建立方法及装置
- 下一篇:语句标注方法及语句标注装置