[发明专利]一种构建知识库的方法及装置有效
申请号: | 200910136206.6 | 申请日: | 2009-04-29 |
公开(公告)号: | CN101876981A | 公开(公告)日: | 2010-11-03 |
发明(设计)人: | 侯磊;秦吉胜;陈维;张勤 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京同达信恒知识产权代理有限公司 11291 | 代理人: | 魏杉 |
地址: | 英属开曼群*** | 国省代码: | 开曼群岛;KY |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 构建 知识库 方法 装置 | ||
技术领域
本申请涉及计算机及通信领域,特别是涉及构建知识库的方法及装置。
背景技术
计算机和互联网技术已被广泛应用,资源共享是其主要特点。如何从巨大的信息资源中搜索到自身需要的信息,是用户普遍关心的问题。因此,信息搜索技术应运而生。
主要的搜索技术之一是关键词搜索。用户在搜索栏中输入关键词,搜索引擎根据该关键词进行搜索,尽可能的搜索出所有包含该关键词的网页。然而,一个词本身有多种含义,并且一个词在不同行业不同领域里也可能有多种解释或应用,可能大多数的含义对搜索用户来说都属于干扰项,基于这些含义的网页对该搜索用户来说均为无用网页,使得搜索结果不理想。知网的出现部分解决了该问题。
在知网(How-net)中,一个词条包含有多个概念,依据不同的概念来进行搜索,相对于关键词搜索来说,其搜索结果更准确。
但是,目前的知网是由人工建立和整理的,通常只覆盖到高频内容,覆盖的网络内容有限。并且,随着网络的发展,信息量成几何级数增长,人工更新知网的速度远远低于信息量的增长速度,导致搜索结果不理想。
发明内容
本申请实施例提供一种构建知识库的方法及装置,用于实现知识库的自动生成,并且提高知识库的准确度。
一种构建知识库的方法,包括以下步骤:
计算机设备中的基础数据处理层获得网页中的句子;
计算机设备中的挖掘层对句子进行分词;
挖掘层将知识库中第一类别对应的预设的标志词与分词后得到的词进行匹配;
挖掘层在至少有一个分词后得到的词匹配成功的情况下,将句子中与匹配成功的词相邻的未知字符串作为第一条目添加到第一类别中;
挖掘层当句子中的词与知识库中第二类别下的第二条目匹配时,判断第一类别与第二类别之间是否已建立关系,在建立有关系的情况下,为第一条目与第二条目建立关系。
一种用于构建知识库的计算机设备,包括:
处理模块,用于获得网页中的句子;
挖掘模块,用于对句子进行分词,并将知识库中第一类别对应的标志词与分词后得到的词进行匹配,在至少有一个分词后得到的词匹配成功的情况下,将句子中与匹配成功的词相邻的未知字符串作为第一条目添加到第一类别中,以及当句子中的词与知识库中第二类别下的第二条目匹配时,判断第一类别与第二类别之间是否已建立关系,在建立有关系的情况下,为第一条目与第二条目建立关系。
本申请实施例提供一种搜索信息的方法,用于为用户搜索到更准确的信息,该方法包括以下步骤:
根据用户输入的搜索词,获得与搜索词匹配的标签;
根据匹配的标签获得与该标签对应的网页;
将获得的网页或网页的链接地址发送给用户;
其中,标签是依据网页的关键词和知识库中与关键词有关系的条目获得的。
一种搜索信息的方法,包括以下步骤:
利用知识库中的条目对用户输入的搜索词进行分词处理;
将分词后得到的词与知识库中的条目进行匹配,并确定匹配成功的条目;
通过知识库获得与匹配成功的条目有关系的条目;
根据有关系的条目更新用户输入的搜索词;
根据更新后的搜索词进行搜索。
一种搜索引擎,包括:
第一查询模块,用于根据用户输入的搜索词,获得与搜索词匹配的标签;
第二查询模块,用于根据匹配的标签获得与该标签对应的网页;
接口模块,用于将获得的网页或网页的链接地址发送给用户;
标签生成模块,用于依据网页的关键词和知识库中与关键词有关系的条目,生成与该网页对应的标签。
一种搜索引擎,包括:
分词模块,用于利用知识库中的条目对用户输入的搜索词进行分词处理;
匹配模块,用于将分词后得到的词与知识库中的条目进行匹配,并确定匹配成功的条目;
查询模块,用于通过知识库获得与匹配成功的条目有关系的条目;
更新模块,用于根据有关系的条目更新用户输入的搜索词;
搜索模块,用于根据更新后的搜索词进行搜索。
本申请实施例将句子中的词与知识库中的标志词进行匹配,根据匹配成功的标志词确定未知词在知识库中对应的类别,并作为该类别下的条目,以及根据类别之间的关系,为在句子中成对出现的条目建立关系,从而实现了知识库的更新。
附图说明
图1A为本申请实施例中计算机设备的示意图;
图1B为本申请实施例中网络系统的结构图;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200910136206.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:污泥热干化方法与装置
- 下一篇:用于驱动光源模块的方法