[发明专利]一种基于知识图谱的智能搜索方法及系统在审
申请号: | 202010918512.1 | 申请日: | 2020-09-04 |
公开(公告)号: | CN112148885A | 公开(公告)日: | 2020-12-29 |
发明(设计)人: | 陈刚 | 申请(专利权)人: | 上海晏鼠计算机技术股份有限公司 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F16/38;G06F16/31;G06F40/258;G06F40/289;G06F16/953 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 200082 上海市*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 知识 图谱 智能 搜索 方法 系统 | ||
1.一种基于知识图谱的智能搜索方法,其特征在于,该方法步骤包括:
第一步:用户输入检索词/词组进行检索;
第二步:对用户输入的检索词/词组进行分词;
第三步:将分词后的检索词/词组与知识图谱核心词进行精确匹配和近义词匹配;
第四步:核心词匹配成功则继续与“核心词知识图谱”中的节点词进行精确匹配和近义词匹配;节点词匹配成功则到在文章标签表中获取文章ID,以文章ID到数据存储模块中获取文章内容;节词匹配不成功,则将检索词/词组在核心词所属全部文章中进行标题和正文匹配检索,获取到匹配的文章内容;
第五步:核心词匹配不成功,则将检索词/词组在非关系型数据库中与全部文章的标题和内容进行匹配,获取到匹配的文章内容;
第六步:将获取到的文章内容,进行内容清洗、去重、排序后,进行内容输出。
2.根据权利要求1所述的一种基于知识图谱的智能搜索方法,其特征在于,知识图谱构建和文章数据打标是智能检索的前提,其中方法步骤包括:
第一步:知识图谱构建,给定多个核心词,通过数据采集获取到每个核心词对应的海量原始文章,将海量文章进行归一化存储以及分词处理,去除掉“停用词、虚词、量词、代词、数词、形容词”等对构建知识图谱无用的词,保留下名词/动词作为核心词知识图谱各级节点中的候选实体词;
所述给定多个核心词为知识图谱的第一层实体,给定核心词是利用文本相似度算法对候选实体词与给定核心词之间进行相似度计算,将相似度值大于阈值的词作为知识图谱的第二层词;第二层词构建完毕后,利用文本相似度算法将剩下的候选实体词与第二层词进行文本相似度计算,将相似度值大于阈值的词作为知识图谱的第三层词;以此递推构成多层次的知识图谱;
第二步:各核心词知识图谱与对应的海量原始文章内容分别存入数据存储模块;
第三步:各核心词知识图谱构建完毕后,对相应的“采集获取的海量文章”进行文章标注,采集获取到的文章数据会随着不断采集,数据不断累多,文章标注的过程也会不断进行,步骤方法包括,文章打标、将文章进行段落拆分,并对每个段落进行分词、段落打标;
第四步:根据文章和段落打标词频结果,反向标记“知识图谱”,对所有文章/段落词频标记为0的图谱节点词进行剔除后形成扩展的检索用知识图谱处理表,存入存储模块;
第五步:用户输入检索词/词组进行文章检索,将检索词/词组进行分词,分词后与检索用知识图谱中的各核心词进行匹配,匹配结果包括与核心词匹配成功、与核心词匹配不成功;
所述与核心词匹配成功的步骤为,与核心词匹配成功后则继续与该核心词知识图谱的节点词进行匹配,匹配规则包括不限于相同词、同义词、近义词;如果节点词匹配成功,则记为目标匹配词,到文章标签表中获取在目标匹配词下标签0的文章ID;随后按照文章ID到原始文章内容数据存储单元中获取文章内容,输出到展示模块;
如果节点词匹配不成功,则到核心词下原始文章内容数据存储单元中进行文章标题的匹配,以及在文章正文内容中进行全文匹配,匹配成功后,获取文章内容,输出到展示模块;
所述与核心词匹配不成功的步骤为,与核心词匹配不成功后则与存储模块中所有文章进行标题和正文内容的匹配,匹配规则包括不限于相同词、同义词、近义词;匹配成果,获取文章内容,输出到展示模块;
第六步:检索词/词组分词后,分为检索词1、检索词2、检索词3至N个检索词,与知识图谱各层节点词进行匹配,匹配结构包括匹配成功获取文章ID、匹配文章ID不成功;
第七步:经由上述步骤后,将获取到的文章内容进行进一步清洗去重后,进行内容结果的输出,在展示模块中展示供用户查看。
3.根据权利要求2所述的一种基于知识图谱的智能搜索方法,其特征在于,所述文章打标,首先对所有单篇文章进行分词,基于知识图谱各层节点的实体词,将每层实体词与文章分词结果进行匹配,引入同义词/近义词库,匹配规则包括不限于相同词、同义词、近义词;匹配过程中统计知识图谱各级节点实体词在文章中出现的词频,若出现5词,则词频记为5;若某个节点的实体词在段落中无相同词/同义词/近义词出现,则文章对应该节点实体词的标记为0,文章ID、知识图谱各节点实体词名称,节点实体词在文章中出现的频次记为文章标签表,存入数据存储模块。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海晏鼠计算机技术股份有限公司,未经上海晏鼠计算机技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010918512.1/1.html,转载请声明来源钻瓜专利网。