[发明专利]一种垂直领域的概念一致性关系构建方法和装置在审
申请号: | 201510047437.5 | 申请日: | 2015-01-29 |
公开(公告)号: | CN104598608A | 公开(公告)日: | 2015-05-06 |
发明(设计)人: | 王超越;李婷婷;孙连生;赵世奇 | 申请(专利权)人: | 百度在线网络技术(北京)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 广州三环专利代理有限公司 44202 | 代理人: | 温旭;郝传鑫 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 垂直 领域 概念 一致 性关系 构建 方法 装置 | ||
1.一种垂直领域的概念一致性关系构建方法,其特征在于,包括:
获取一个垂直领域内不同属性下的概念x和概念y在所属垂直领域内用户查询数据的共现关系统计数据,
根据所述共现关系统计数据计算概念x和概念y的一致性关系的强度分值pmi(x,y),其中,强度分值pmi(x,y)为带有权值极大化参数pow的概念x和概念y的共现分布c(x,y)pow与带有惩罚因子N的概念x和概念y的乘积分布(c(x)+N)*(c(x)+N)的比值取对数,
其中,c(x)为概念x在所属垂直领域内用户查询数据中出现的词频,c(y)为概念y在所属垂直领域内用户查询数据中出现的词频,c(x,y)为概念x和概念y在所属垂直领域内用户查询数据中出现的词频,pow为权值极大化参数,N为惩罚因子。
2.根据权利要求1所述的方法,其特征在于,所述方法进一步包括:
根据下述公式计算与概念c具有一致性关系的各个不同属性下的概念分布的信息熵,抽取信息熵大于第一预设阈值的概念关系集合,以确定概念唯一关系,其中,一个属性下的概念分布的信息熵是将该属性下的n个概念xi作为信源的n种取值,每个概念在所属垂直领域内用户查询数据中独立出现的词频p(xi)作为信源的取值xi对应的概率,通过信息熵公式进行计算获得。
3.根据权利要求2所述的方法,其特征在于,所述方法进一步包括:
根据第一概念与第一属性下的第二概念的唯一关系确定所述第一概念与所述第一属性下除了第二概念之外的概念为互斥关系。
4.根据权利要求1至3中任意一项所述的方法,其特征在于,所述方法进一步包括:
将概念的一致性关系的强度分值小于第二预设阈值的两个概念作为互斥关系概念对。
5.根据权利要求4所述的方法,其特征在于,其中,所属垂直领域内用户查询数据是根据所属垂直领域的关键词特征对用户查询日志数据进行过滤获得。
6.一种垂直领域的概念一致性关系构建装置,其特征在于,包括:
获取模块,用于获取一个垂直领域内不同属性下的概念x和概念y在所属垂直领域内用户查询数据的共现关系统计数据;
确定模块,用于根据所述共现关系统计数据计算概念x和概念y的一致性关系的强度分值pmi(x,y),其中,强度分值pmi(x,y)为带有权值极大化参数pow的概念x和概念y的共现分布c(x,y)pow与带有惩罚因子N的概念x和概念y的乘积分布(c(x)+N)*(c(x)+N)的比值取对数,
其中,c(x)为概念x在所属垂直领域内用户查询数据出现的词频,c(y)为概念y在所属垂直领域内用户查询数据出现的词频,c(x,y)为概念x和概念y在所属垂直领域内用户查询数据出现的词频,pow为权值极大化参数,N为惩罚因子。
7.根据权利要求6所述的装置,其特征在于,所述确定模块,还用于:
根据下述公式计算与概念c具有一致性关系的各个不同属性下的概念分布的信息熵,抽取信息熵大于第一预设阈值的概念关系集合,以确定概念唯一关系,其中,一个属性下的概念分布的信息熵是将该属性下的n个概念xi作为信源的n种取值,每个概念在所属垂直领域内用户查询数据中独立出现的词频p(xi)作为信源的取值xi对应的概率,通过信息熵公式进行计算获得。
8.根据权利要求7所述的装置,其特征在于,所述确定模块,还用于:根据第一概念与第一属性下的第二概念的唯一关系确定所述第一概念与所述第一属性下除了第二概念之外的概念为互斥关系。
9.根据权利要求6至8中任意一项所述的装置,其特征在于,所述确定模块,还用于:
将概念的一致性关系的强度分值小于第二预设阈值的两个概念作为互斥关系概念对。
10.根据权利要求9所述的装置,其特征在于,其中,所属垂直领域内用户查询数据是根据所属垂直领域的关键词特征对用户查询日志数据进行过滤获得。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度在线网络技术(北京)有限公司;,未经百度在线网络技术(北京)有限公司;许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510047437.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:应用程序搜索方法和装置
- 下一篇:一种针对动态异构空间信息标绘数据的整合方法