[发明专利]得到和搜索结构化语义知识的方法及对应装置有效
申请号: | 201110447926.1 | 申请日: | 2011-12-28 |
公开(公告)号: | CN103186556A | 公开(公告)日: | 2013-07-03 |
发明(设计)人: | 赵世奇;方高林;王海峰 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京鸿德海业知识产权代理事务所(普通合伙) 11412 | 代理人: | 袁媛 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 得到 搜索 结构 语义 知识 方法 对应 装置 | ||
1.一种得到结构化语义知识的方法,其特征在于,该方法包括:
S1、对已有语料进行分词处理和命名实体识别,抽取出实体类型E的实体ei;
S2、从搜索日志中获取所有包含所述E的搜索项query,从query中所述E之前出现的实词抽取候选需求限定词dm,构成候选需求限定词集合{dm};
S3、从大规模语料库中抽取出包含属于所述E的ei且包含所述{dm}中至少一个候选需求限定词的句子,从句子中选择出现次数满足第二出现次数要求的候选需求限定词作为需求限定词cj,确定所抽取句子中cj和ei构成的词语对<cj,ei>;
S4、将<cj,ei>存入实体类型E对应的结构化数据库EKBase。
2.根据权利要求1所述的方法,其特征在于,步骤S1中所述已有语料包括:随机抽取的网页资源构成的网页语料库,或者,利用已有实体平台上的实体进行搜索后,从搜索结果中抽取排在前N1个的标题或网页片段snippets构成的网页语料库,所述N1为预设的正整数。
3.根据权利要求1所述的方法,其特征在于,步骤S1中在所述命名实体识别之后进一步包括:对命名实体识别结果中的实体进行命名实体验证,根据验证结果将不属于所述E的实体从命名实体识别结果中删除。
4.根据权利要求1所述的方法,其特征在于,在所述步骤S2中进一步包括:统计各候选需求限定词在所述query中的出现次数,将出现次数不满足第一出现次数要求的候选需求限定词从所述{dm}中过滤掉。
5.根据权利要求1所述的方法,其特征在于,所述步骤S3具体包括:针对各实体ei分别执行以下步骤:
S31、从大规模语料库中抽取包含实体ei的句子;
S32、从抽取的句子中利用命名实体验证的方式确定实体ei属于所述E的句子;
S33、从所述步骤S32确定的句子中筛选出包含所述{dm}中至少一个候选需求限定词的句子;
S34、统计所述{dm}中各候选需求限定词在所述步骤S33筛选出的句子中的出现次数,选择出现次数满足第二出现次数要求的候选需求限定词作为需求限定词cj,确定所述<cj,ei>。
6.根据权利要求1所述的方法,其特征在于,该方法还包括:
将冷门需求限定词与所述E构成的组合作为query进行搜索,抽取出搜索结果中的实体,将抽取出的实体与所述冷门需求限定词构成的词语对添加到所述EKBase。
7.根据权利要求1所述的方法,其特征在于,在所述步骤S3和所述步骤S4之间还包括以下步骤S5至S7:
S5、利用所述步骤S3确定的<cj,ei>作为query进行搜索,得到包含cj和ei的句子;
S6、利用命名实体验证的方式从所述步骤S5得到的句子中抽取出ei属于实体类型E的句子Sk;
S7、对各句子Sk进行支持度评分,将支持度评分满足预设评分要求的句子确定为支持句子,仅保留支持句子所包含的<cj,ei>;
所述步骤S4中,进一步在所述EKBase中存入cj和ei共现的支持句子数量、含有ei的支持句子数量以及含有ei且ei属于所述E的句子数量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110447926.1/1.html,转载请声明来源钻瓜专利网。