[发明专利]基于文本相似性分析的专利推荐方法、装置、设备及存储介质有效
申请号: | 202010769613.7 | 申请日: | 2020-08-03 |
公开(公告)号: | CN112000783B | 公开(公告)日: | 2022-09-27 |
发明(设计)人: | 孙圣力;陈智雄;李青山;司华友 | 申请(专利权)人: | 北京大学;南京博雅区块链研究院有限公司;北京国信云服科技有限公司 |
主分类号: | G06F16/332 | 分类号: | G06F16/332 |
代理公司: | 无锡永乐唯勤专利代理事务所(普通合伙) 32369 | 代理人: | 孙际德 |
地址: | 100000*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 文本 相似性 分析 专利 推荐 方法 装置 设备 存储 介质 | ||
本发明提供了一种基于文本相似性分析的专利推荐方法、装置、设备及存储介质,专利推荐方法包括:获取目标文本的目标关键词,目标关键词包括主体关键词及描述性关键词;以主体关键词和所有的描述性关键词作为检索词获得基础相似文本集;以主体关键词和各描述性关键词作为检索词获得扩展相似文本集;遍历扩展相似文本集,针对每个扩展相似文本,基于该扩展相似文本的文本特征词和该扩展相似文本对应的检索词计算该扩展相似文本与基础相似文本集中的基础相似文本之间的相似度,当该扩展相似文本与基础相似文本集中的任一基础相似文本之间的相似度高于预定阈值时,将该扩展相似文本移入至基础相似文本集。本发明能够提升相似文本的查全率,降低漏检率。
技术领域
本发明设置文本处理领域,具体而言,本申请涉及一种基于文本相似性分析的专利推荐方法、装置、设备及存储介质。
背景技术
技术文本(例如专利文本、论文文本及企业技术文档)作为自然语言的载体,通常以一种非结构或半结构化的形式存在。随着计算机互联网技术的飞速发展,文本相似性分析在许多领域存在广泛应用,如在专利信息检索中,文本相似性分析即是一项基础而又重要的工作。
随着世界经济和技术的竞争越来越激烈,专利因其作为科技创新成果的重要表现形式和载体,已经成为推动现代社会进步和经济技术发展的重要杠杆。
企业获得创新性技术的路径不外乎包括自主研发和技术引进两种,无论是自主研发或者是技术引进,都必须首先获取到有关该创新性技术的相关专利成果。如当选择自主研发路径时,需要进行专利规避设计以绕开相关专利的保护范围,防止侵权。当选择技术引进路径时,则需要对相关专利进行技术分析,以选择出最合适、最先进的专利技术进行针对性的引进。
如何从海量的专利数据库中获取到与创新性技术相关的、足够多的专利文件是一项较为复杂、专业的工作,大多数中小企业不具备相关能力。因此,专利推荐相关的科技服务应运而生,其目的在于为客户推荐与客户感兴趣的创新性技术相关的专利文件。
专利推荐的首要任务是从海量的专利数据库(如中国专利数据库)中检索出与创新性技术相关的专利文本。目前,比较常用的专利文本检索策略为关键词检索,其基于待检索关键词构建检索式,从专利数据库中检索出相关的专利文本。关键词检索策略仅能检索到与选定的关键词强相关的少量的专利文本,其漏检率较高,很容易遗漏大量重要的、技术相似度高的专利文本,其难以实现满意的专利推荐效果。
发明内容
为了解决上述技术问题,本发明第一方面提供了一种基于文本相似性分析的专利推荐方法,其包括:
获取目标文本的目标关键词,所述目标关键词包括主体关键词及与主体关键词关联的若干描述性关键词;
以所述主体关键词和所述若干描述性关键词作为检索词,从预设数据库中检索到包含有若干基础相似文本的基础相似文本集;
以所述主体关键词和各所述描述性关键词作为检索词,依次从所述预设数据库中获取到若干扩展相似文本子集,并将获取到的所述若干扩展相似文本集合并以形成包含有若干扩展相似文本的扩展相似文本集;
获取所述扩展相似文本集中的各所述扩展相似文本的文本特征词;
遍历所述扩展相似文本集中的每个所述扩展相似文本,针对每个所述扩展相似文本,基于该所述扩展相似文本的文本特征词和该所述扩展相似文本对应的检索词,计算该所述扩展相似文本与所述基础相似文本集中的各所述基础相似文本之间的相似度,当该所述扩展相似文本与所述基础相似文本集中的任一所述基础相似文本之间的相似度高于预定阈值时,将该所述扩展相似文本自所述扩展相似文本集移入至所述基础相似文本集内。
本发明第二方面提供了一种基于文本相似性分析的专利推荐装置,其包括:
第一获取模块,用于获取目标文本的目标关键词,所述目标关键词包括主体关键词及与主体关键词关联的若干描述性关键词;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京大学;南京博雅区块链研究院有限公司;北京国信云服科技有限公司,未经北京大学;南京博雅区块链研究院有限公司;北京国信云服科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010769613.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种分散式污水处理自动控制装置及方法
- 下一篇:自动提取罐出渣门双头冲水器