[发明专利]一种垂直领域的概念一致性关系构建方法和装置在审
申请号: | 201510047437.5 | 申请日: | 2015-01-29 |
公开(公告)号: | CN104598608A | 公开(公告)日: | 2015-05-06 |
发明(设计)人: | 王超越;李婷婷;孙连生;赵世奇 | 申请(专利权)人: | 百度在线网络技术(北京)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 广州三环专利代理有限公司 44202 | 代理人: | 温旭;郝传鑫 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 垂直 领域 概念 一致 性关系 构建 方法 装置 | ||
技术领域
本发明涉及数据处理领域,更为具体而言,涉及一种垂直领域的概念一致性关系构建方法和装置。
背景技术
垂直领域是相对于通用领域而言的,主要指非综合的、对某一特定领域的专业、深入的细分,诸如教育、特卖、医疗之类的非标准化消费品领域都属于垂直领域。各个垂直领域包括其对应的概念集合,例如,医疗垂直领域可包括糖尿病、内科、盘尼西林、人民医院等概念。概念作为构成垂直领域的基本元素,是表述用户在该领域需求的基础。
对于垂直领域内数据检索,大多数还是采用基于关键字匹配的方式。采用匹配关键字的检索方式只能展现包括用户查询关键字的检索结果,对用户检索需求的刻画不充分。
发明内容
为解决上述技术问题,提供了一种垂直领域的概念一致性关系构建方法和装置,根据一个垂直领域内不同属性下的两个概念的共现关系统计数据计算概念一致性关系,实现了概念一致性关系确定的定量计算。
根据本发明实施方式的第一方面,提供了一种垂直领域的概念一致性关系构建方法,包括:
获取一个垂直领域内不同属性下的概念x和概念y在所属垂直领域内用户查询数据的共现关系统计数据,
根据所述共现关系统计数据计算概念x和概念y的一致性关系的强度分值pmi(x,y),其中,强度分值pmi(x,y)为带有权值极大化参数pow的概念x和概念y的共现分布c(x,y)pow与带有惩罚因子N的概念x和概念y的乘积分布(c(x)+N)*(c(x)+N)的比值取对数,
其中,c(x)为概念x在所属垂直领域内用户查询数据出现的词频,c(y)为概念y在所属垂直领域内用户查询数据出现的词频,c(x,y)为概念x和概念y在所属垂直领域内用户查询数据出现的词频,pow为权值极大化参数,N为惩罚因子。
在本发明的一些实施方式中,所述方法可进一步包括:根据下述公式计算与概念c具有一致性关系的各个不同属性下的概念分布的信息熵,抽取信息熵大于第一预设阈值的概念关系集合,以确定概念唯一关系,其中,一个属性下的概念分布的信息熵是将该属性下的n个概念xi作为信源的n种取值,每个概念在所属垂直领域内用户查询数据中独立出现的词频p(xi)作为信源的取值xi对应的概率,通过信息熵公式进行计算获得。
在本发明的一些实施方式中,所述方法可进一步包括:根据第一概念与第一属性下的第二概念的唯一关系确定所述第一概念与所述第一属性下除了第二概念之外的概念为互斥关系。
在本发明的一些实施方式中,所述方法可进一步包括:将概念的一致性关系的强度分值小于第二预设阈值的两个概念作为互斥关系概念对。
在本发明的一些实施方式中,其中,所属垂直领域内用户查询数据是根据所属垂直领域的关键词特征对用户查询日志数据进行过滤获得。
根据本发明实施方式的第二方面,提供了一种垂直领域的概念一致性关系构建装置,该装置可包括:
获取模块,用于获取一个垂直领域内不同属性下的概念x和概念y在所属垂直领域内用户查询数据的共现关系统计数据;
确定模块,用于根据所述共现关系统计数据计算概念x和概念y的一致性关系的强度分值pmi(x,y),其中,强度分值pmi(x,y)为带有权值极大化参数pow的概念x和概念y的共现分布c(x,y)pow与带有惩罚因子N的概念x和概念y的乘积分布(c(x)+N)*(c(x)+N)的比值取对数,
其中,c(x)为概念x在所属垂直领域内用户查询数据出现的词频,c(y)为概念y在所属垂直领域内用户查询数据出现的词频,c(x,y)为概念x和概念y在所属垂直领域内用户查询数据出现的词频,pow为权值极大化参数,N为惩罚因子。
在本发明的一些实施方式中,所述确定模块,还可用于:根据下述公式计算与概念c具有一致性关系的各个不同属性下的概念分布的信息熵,抽取信息熵大于第一预设阈值的概念关系集合,以确定概念唯一关系,其中,一个属性下的概念分布的信息熵是将该属性下的n个概念xi作为信源的n种取值,每个概念在所属垂直领域内用户查询数据中独立出现的词频p(xi)作为信源的取值xi对应的概率,通过信息熵公式进行计算获得。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度在线网络技术(北京)有限公司;,未经百度在线网络技术(北京)有限公司;许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510047437.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:应用程序搜索方法和装置
- 下一篇:一种针对动态异构空间信息标绘数据的整合方法