[发明专利]得到和搜索结构化语义知识的方法及对应装置有效
申请号: | 201110447926.1 | 申请日: | 2011-12-28 |
公开(公告)号: | CN103186556A | 公开(公告)日: | 2013-07-03 |
发明(设计)人: | 赵世奇;方高林;王海峰 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京鸿德海业知识产权代理事务所(普通合伙) 11412 | 代理人: | 袁媛 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 得到 搜索 结构 语义 知识 方法 对应 装置 | ||
【技术领域】
本发明涉及计算机技术领域,特别涉及一种得到和搜索结构化语义知识的方法及对应装置。
【背景技术】
随着计算机技术的不断发展,搜索引擎逐渐成为人们获取信息的主要工具,其中实体相关的搜索在搜索引擎技术中占有很大比重,其中一类为搜索满足需求约束的某种类型的实体。例如,用户在搜索引擎中输入搜索项(query)“战争电影”,即要搜索以战争作为需求限定的电影类型的实体;再如,用户在搜索引擎中输入query“澳大利亚动物”,即要搜索以澳大利亚作为需求限定的动物类型的实体。这些query的共同特征是都采用了“需求限定词+实体类型”的形式,想要获得的是具体的实体。
然而,在现有的搜索引擎技术中,当用户输入“需求限定词+实体类型”式的query时,搜索引擎返回的往往是与该query相关的页面,用户需要通过点击并进入相应页面并浏览具体页面内容来搜寻对应的具体实体,甚至搜索引擎返回的页面可能无法满足用户的搜索需求,显然就会浪费网络资源和用户的时间,甚至无法达到搜索的目的。究其原因,正是因为现有技术中尚没有一种好的方式能够将需求限定词、实体类型和实体对应构成的结构化信息挖掘出来,从而无法实现基于此的结构化搜索。
【发明内容】
有鉴于此,本发明提供了一种得到和搜索结构化语义知识的方法及对应装置,以便于在用户输入“需求限定词+实体类型”的query进行搜索时,在满足用户搜索需求的同时节约网络资源和用户的时间。
具体技术方案如下:
一种得到结构化语义知识的方法,该方法包括:
S1、对已有语料进行分词处理和命名实体识别,抽取出实体类型E的实体ei;
S2、从搜索日志中获取所有包含所述E的query,从query中所述E之前出现的实词抽取候选需求限定词dm,构成候选需求限定词集合{dm};
S3、从大规模语料库中抽取出包含属于所述E的ei且包含所述{dm}中至少一个候选需求限定词的句子,从句子中选择出现次数满足第二出现次数要求的候选需求限定词作为需求限定词cj,确定所抽取句子中cj和ei构成的词语对<cj,ei>;
S4、将<cj,ei>存入实体类型E对应的结构化数据库EKBase。
根据本发明一优选实施例,步骤S1中所述已有语料包括:随机抽取的网页资源构成的网页语料库,或者,利用已有实体平台上的实体进行搜索后,从搜索结果中抽取排在前N1个的标题或网页片段(snippets)构成的网页语料库,所述N1为预设的正整数。
根据本发明一优选实施例,步骤S1中在所述命名实体识别之后进一步包括:对命名实体识别结果中的实体进行命名实体验证,根据验证结果将不属于所述E的实体从命名实体识别结果中删除。
根据本发明一优选实施例,在所述步骤S2中进一步包括:统计各候选需求限定词在所述query中的出现次数,将出现次数不满足第一出现次数要求的候选需求限定词从所述{dm}中过滤掉。
根据本发明一优选实施例,所述步骤S3具体包括:针对各实体ei分别执行以下步骤:
S31、从大规模语料库中抽取包含实体ei的句子;
S32、从抽取的句子中利用命名实体验证的方式确定实体ei属于所述E的句子;
S33、从所述步骤S32确定的句子中筛选出包含所述{dm}中至少一个候选需求限定词的句子;
S34、统计所述{dm}中各候选需求限定词在所述步骤S33筛选出的句子中的出现次数,选择出现次数满足第二出现次数要求的候选需求限定词作为需求限定词cj,确定所述<cj,ei>。
根据本发明一优选实施例,该方法还包括:
将冷门需求限定词与所述E构成的组合作为query进行搜索,抽取出搜索结果中的实体,将抽取出的实体与所述冷门需求限定词构成的词语对添加到所述EKBase。
根据本发明一优选实施例,在所述步骤S3和所述步骤S4之间还包括以下步骤S5至S7:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110447926.1/2.html,转载请声明来源钻瓜专利网。