[发明专利]一种基于知识图谱的智能搜索方法及系统在审
申请号: | 202010918512.1 | 申请日: | 2020-09-04 |
公开(公告)号: | CN112148885A | 公开(公告)日: | 2020-12-29 |
发明(设计)人: | 陈刚 | 申请(专利权)人: | 上海晏鼠计算机技术股份有限公司 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F16/38;G06F16/31;G06F40/258;G06F40/289;G06F16/953 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 200082 上海市*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 知识 图谱 智能 搜索 方法 系统 | ||
本发明公开了一种基于知识图谱的智能搜索方法,该方法步骤包括,第一步:用户输入检索词/词组进行检索,第二步:对用户输入的检索词/词组进行分词,第三步:将分词后的检索词/词组与知识图谱核心词进行精确匹配和近义词匹配,第四步:核心词匹配成功则继续与“核心词知识图谱”中的节点词进行精确匹配和近义词匹配;第五步:核心词匹配不成功,则将检索词/词组在非关系型数据库中与全部文章的标题和内容进行匹配,获取到匹配的文章内容,第六步:将获取到的文章内容,进行内容清洗、去重、排序后,进行内容输出,本发明的有益效果是,该方法主要是在在传统索引式检索的基础上,引入知识图谱构建和标注体系,为用户提供更为精准和快速的搜索结果。
技术领域
本发明涉及搜索方法技术领域,具体为一种基于知识图谱的智能搜索方法及系统。
背景技术
用户进行搜索时,多采取传统的索引式检索形式,基于传统关系型数据库中关键词匹配进行检索,往往存在查不全、查不准、检索质量不高的现象,特别是在网络信息时代,利用传统关键词匹配很难满足人们检索的要求,尤其是对于大段文本的检索,索引式检索不仅速度慢而且无法对患者的输入词进行有效理解。
基于知识图谱的智能搜索,主要通过自然语言处理和知识图谱等人工智能技术,来实现人工智能在搜索引擎产品的落地。知识图谱于2012年5月正式被提出,其目标在于改善搜索结果,描述真实世界中存在的各种实体和概念,以及这些实体、概念之间的关联关系。
运用了知识图谱的智能搜索引擎,可以返回更加精准的结果。搜索+知识图谱,是未来搜索引擎的发展方向,未来的搜索引擎,会以用户为核心,越来越智能化。
基于此,本发明设计了一种基于知识图谱的智能搜索方法及系统,以解决上述问题。
发明内容
本发明公开了一种基于知识图谱的智能搜索方法及系统,该方法用于解决传统关键词匹配很难满足人们检索的要求,尤其是对于大段文本的检索,索引式检索不仅速度慢而且无法对患者的输入词进行有效理解的问题。
为实现上述目的,本发明提供如下技术方案:一种基于知识图谱的智能搜索方法,该方法步骤包括:
第一步:用户输入检索词/词组进行检索;
第二步:对用户输入的检索词/词组进行分词;
第三步:将分词后的检索词/词组与知识图谱核心词进行精确匹配和近义词匹配;
第四步:核心词匹配成功则继续与“核心词知识图谱”中的节点词进行精确匹配和近义词匹配;节点词匹配成功则到在文章标签表中获取文章ID,以文章ID到数据存储模块中获取文章内容;节词匹配不成功,则将检索词/词组在核心词所属全部文章中进行标题和正文匹配检索,获取到匹配的文章内容;
第五步:核心词匹配不成功,则将检索词/词组在非关系型数据库中与全部文章的标题和内容进行匹配,获取到匹配的文章内容;
第六步:将获取到的文章内容,进行内容清洗、去重、排序后,进行内容输出。
作为本发明进一步的技术方案,知识图谱构建和文章数据打标是智能检索的前提,其中方法步骤包括:
第一步:知识图谱构建,给定多个核心词,通过数据采集获取到每个核心词对应的海量原始文章,将海量文章进行归一化存储以及分词处理,去除掉“停用词、虚词、量词、代词、数词、形容词”等对构建知识图谱无用的词,保留下名词/动词作为核心词知识图谱各级节点中的候选实体词;
第二步:各核心词知识图谱与对应的海量原始文章内容分别存入数据存储模块;
第三步:各核心词知识图谱构建完毕后,对相应的“采集获取的海量文章”进行文章标注,采集获取到的文章数据会随着不断采集,数据不断累多,文章标注的过程也会不断进行,步骤方法包括,文章打标、将文章进行段落拆分,并对每个段落进行分词、段落打标;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海晏鼠计算机技术股份有限公司,未经上海晏鼠计算机技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010918512.1/2.html,转载请声明来源钻瓜专利网。