[发明专利]单一实体实例的挖掘方法和装置有效
申请号: | 201510971804.0 | 申请日: | 2015-12-22 |
公开(公告)号: | CN105550336B | 公开(公告)日: | 2018-12-18 |
发明(设计)人: | 邸楠 | 申请(专利权)人: | 北京搜狗科技发展有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京润泽恒知识产权代理有限公司 11319 | 代理人: | 苏培华 |
地址: | 100084 北京市海淀区中关*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 单一 实体 实例 挖掘 方法 装置 | ||
1.一种单一实体实例的挖掘方法,其特征在于,包括:
抓取来自于多个数据来源、包含特定类型实体对应实体实例的页面;
分别抽取所述页面中包括的实体实例的实体名、属性名和属性值;
针对同名实体的实体实例集合,按照所述同名实体对应的具有单一区分度的属性名下的属性值的分布熵指标,将所述集合划分为至少两个子集,直到划分得到的子集对应的具有单一区分度的属性名下的属性值的分布熵指标符合预设条件为止;所述同名实体为实体名相同的实体实例;
将每个子集中的实体实例,合并得到同一实体的单一实体实例。
2.根据权利要求1所述的方法,其特征在于,
所述同名实体对应的具有单一区分度的属性名为预设的;
或者,
通过以下步骤确定所述同名实体对应的具有单一区分度的属性名:
比较所述同名实体下的不同实体实例之间,各个相同属性名下的属性值的相同程度;
将属性值相同程度超过第一设定阈值的属性名判定为所述同名实体对应的具有单一区分度的属性名。
3.根据权利要求1所述的方法,其特征在于,所述针对所述同名实体的实体实例集合,按照所述同名实体对应的具有单一区分度的属性名下的属性值的分布熵指标,将所述集合划分为至少两个子集的步骤,包括:
针对所述同名实体的实体实例集合,按照所述同名实体对应的具有单一区分度的属性名下的属性值的不同,将所述集合划分为至少两个子集;
分别判断各个子集对应的具有单一区分度的属性名下的属性值的分布熵指标是否符合预设条件;如果符合,则对该子集不再划分;如果不符合,则对该子集继续划分,直到划分得到的子集对应的具有单一区分度的属性名下的属性值的分布熵指标符合所述预设条件为止。
4.根据权利要求1所述的方法,其特征在于,所述针对所述同名实体的实体实例集合,按照所述同名实体对应的具有单一区分度的属性名下的属性值的分布熵指标,将所述集合划分为至少两个子集的步骤,包括:
针对所述同名实体的实体实例集合,按照所述同名实体对应的具有单一区分度的属性名下的属性值的不同,对所述集合进行划分,直到划分得到的每个子集对应的具有单一区分度的属性名下的属性值都相等为止。
5.根据权利要求1所述的方法,其特征在于,在所述分别抽取所述页面中包括的实体实例的实体名、属性名和属性值的步骤之后,还包括:
基于所述同名实体的实体实例集合,挖掘所述同名实体对应的同义属性名。
6.根据权利要求5所述的方法,其特征在于,所述挖掘所述同名实体对应的同义属性名的步骤,包括:
基于所述属性名的相似度,聚类挖掘得到所述同名实体对应的同义属性名;或者,基于所述属性名的相似度和属性共现约束,聚类挖掘得到所述同名实体对应的同义属性名;
其中,所述属性共现约束为:出现在同一实体实例中的不同属性名是不同义的。
7.根据权利要求1所述的方法,其特征在于,所述方法还包括:
基于所述同一实体的单一实体实例,构建知识库。
8.一种单一实体实例的挖掘装置,其特征在于,包括:
抓取模块,用于抓取来自于多个数据来源、包含特定类型实体对应实体实例的页面;
抽取模块,用于分别抽取所述页面中包括的实体实例的实体名、属性名和属性值;
合并模块,用于针对同名实体的实体实例集合,按照所述同名实体对应的具有单一区分度的属性名下的属性值的分布熵指标,将所述集合划分为至少两个子集,直到划分得到的子集对应的具有单一区分度的属性名下的属性值的分布熵指标符合预设条件为止;将每个子集中的实体实例,合并得到同一实体的单一实体实例;所述同名实体为实体名相同的实体实例。
9.一种用于单一实体实例挖掘的装置,其特征在于,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
抓取来自于多个数据来源、包含特定类型实体对应实体实例的页面;
分别抽取所述页面中包括的实体实例的实体名、属性名和属性值;
针对同名实体的实体实例集合,按照所述同名实体对应的具有单一区分度的属性名下的属性值的分布熵指标,将所述集合划分为至少两个子集,直到划分得到的子集对应的具有单一区分度的属性名下的属性值的分布熵指标符合预设条件为止;所述同名实体为实体名相同的实体实例;
将每个子集中的实体实例,合并得到同一实体的单一实体实例。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京搜狗科技发展有限公司,未经北京搜狗科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510971804.0/1.html,转载请声明来源钻瓜专利网。