[发明专利]一种复合文档检索方法、装置及电子设备在审
申请号: | 201810950144.1 | 申请日: | 2018-08-20 |
公开(公告)号: | CN110888993A | 公开(公告)日: | 2020-03-17 |
发明(设计)人: | 冷志峰;宁廷泽 | 申请(专利权)人: | 珠海金山办公软件有限公司;北京金山办公软件股份有限公司;广州金山移动科技有限公司 |
主分类号: | G06F16/43 | 分类号: | G06F16/43 |
代理公司: | 北京柏杉松知识产权代理事务所(普通合伙) 11413 | 代理人: | 马敬;项京 |
地址: | 519015 广东省珠海市高新*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 复合 文档 检索 方法 装置 电子设备 | ||
本发明实施例提供了一种复合文档检索方法、装置及电子设备。其中,方法包括:获取目标复合文档的文档特征,所述文档特征包括:特征文本、特征图片和特征语音中的至少一个;分别确定多个待检测复合文档是否与所述文档特征相匹配;将所述多个待检测复合文档中与所述文档特征相匹配的复合文档,作为所述目标复合文档的相似文档。可以通过将大量待检测复合文档与文档特征进行比对,以实现自动地从大量待检测复合文档中确定出具有特定内容的复合文档,降低所需要的操作量,节省用户的时间。
技术领域
本发明涉及文件搜索技术领域,特别是涉及一种复合文档检索方法、装置及电子设备。
背景技术
随着电子设备存储能力的上升,电子设备中可能存储有大量复合文档,用户难以准确记住每个复合文档中包括的内容。出于实际需求,用户可能需要查找包含有特定内容的复合文档,例如,用户需要寻找关于某一特定事件的复合文档。
现有的方法,可以是由用户推断出可能包含有特定内容的复合文档,逐个打开并浏览这些复合文档,以确定这些复合文档中是否确实包含有特定内容,将包含有特定内容的复合文档挑选出来。
但是,当可能包含有特定内容的复合文档数量较多时,用户需要多次重复打开复合文档、以及浏览复合文档的步骤,操作繁琐并且可能花费大量时间。
发明内容
本发明实施例的目的在于提供一种文档检索方法,以实现自动地从大量待检测复合文档中确定出具有特定内容的复合文档。具体技术方案如下:
在本发明实施例的第一方面,提供了一种复合文档检索方法,所述方法包括:
获取目标复合文档的文档特征,所述文档特征包括:特征文本、特征图片和特征语音中的至少一个;
分别确定多个待检测复合文档是否与所述文档特征相匹配;
将所述多个待检测复合文档中与所述文档特征相匹配的复合文档,作为所述目标复合文档的相似文档。
结合第一方面,在第一种可能的实现方式中,所述分别确定多个待检测复合文档是否与所述文档特征相匹配,包括:
如果所述文档特征包括特征文本,针对多个待检测复合文档中的每个复合文档执行以下步骤:
提取该待检索复合文档的文本内容;
确定该待检索复合文档的文本内容中是否包括有所述特征文本;
如果该待检索复合文档的文本内容中包括有所述特征文本,确定该待检索复合文档与所述特征文本相匹配。
结合第一方面,在第二种可能的实现方式中,所述分别确定多个待检测复合文档是否与所述文档特征相匹配,包括:
如果所述文档特征包括特征语音,针对多个待检测复合文档中的每个复合文档执行以下步骤:
提取该待检索复合文档的语音内容;
确定该待检索复合文档的语音内容中,是否存在与所述特征语音发音相似度高于预设发音相似度阈值的语音片段;
如果该待检索文档的语音内容中,存在与所述特征语音发音相似度高于预设发音相似度阈值的语音片段,确定该待检索复合文档与所述特征语音相匹配。
结合第一方面,在第三种可能的实现方式中,所述分别确定多个待检测复合文档是否与所述文档特征相匹配,包括:
如果所述文档特征中包括特征图片,针对多个待检测复合文档中的每个复合文档执行以下步骤:
将该待检测复合文档所包括的页面转换为图片,得到该待检测复合文档对应的图片集合;
将该待检测复合文档中的页面转换为图片,得到该待检测复合文档对应的图片集合;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于珠海金山办公软件有限公司;北京金山办公软件股份有限公司;广州金山移动科技有限公司,未经珠海金山办公软件有限公司;北京金山办公软件股份有限公司;广州金山移动科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810950144.1/2.html,转载请声明来源钻瓜专利网。