[发明专利]一种用于垂直领域的概念关系构建方法和装置有效
申请号: | 201510050050.5 | 申请日: | 2015-01-30 |
公开(公告)号: | CN104598613B | 公开(公告)日: | 2017-11-03 |
发明(设计)人: | 李婷婷;孙连生;王超越;赵世奇 | 申请(专利权)人: | 百度在线网络技术(北京)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 广州三环专利商标代理有限公司44202 | 代理人: | 温旭,郝传鑫 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 用于 垂直 领域 概念 关系 构建 方法 装置 | ||
技术领域
本发明涉及数据处理领域,更为具体而言,涉及一种用于垂直领域的概念关系构建方法和装置。
背景技术
垂直领域是相对于通用领域而言的,主要指非综合的、对某一特定领域的专业、深入的细分,诸如教育、特卖、医疗之类的非标准化消费品领域都属于垂直领域。各个垂直领域包括其对应的概念集合,例如,医疗垂直领域可包括糖尿病、内科、盘尼西林、人民医院等概念。概念作为构成垂直领域的基本元素,是表述用户在该领域需求的基础。
对于垂直领域内数据检索,现有技术大多数利用知识图谱描述垂直领域中概念和概念之间的定性关系,以语言培训为例,语言培训下一层包括描述它的属性,例如,培训机构、培训地址、培训语种等属性,在属性的下一层包括该属性下的概念,例如,培训机构包括机构A、机构B、机构C等概念,培训地址包括朝阳、海淀、北京、天津等概念,培训语种包括英语、小语种等概念。然而,现有的对概念之间的关系描述较为固定,在概念关系的刻画描述方面存在不足。
发明内容
为解决上述技术问题,本发明提供了一种用于垂直领域的概念关系构建方法和装置,根据垂直领域知识中的概念层级关系和概念同位关系、用户的搜索行为、用户的点击行为中的一者或一者以上确定概念的紧密性关系,能够从用户需求角度刻画同一属性下两个概念之间的相关性,扩展了垂直领域内对概念之间关系的描述方式。
根据本发明实施方式的第一方法,提供了一种用于垂直领域的概念关系构建方法,该方法可包括:
根据垂直领域知识中的概念层级关系和概念同位关系、用户的搜索行为、用户的点击行为中的一者或一者以上确定概念的紧密性关系,其中,所述概念的紧密性关系用于描述垂直领域内同一属性下的两两概念之间在满足用户需求方面的关联度。
在本发明的一些实施方式中,根据垂直领域知识中的概念层级关系和概念同位关系、用户的搜索行为、用户的点击行为中的一者或一者以上确定概念的紧密性关系可包括:通过概念a和概念b之间的概念路径距离route_dis倒数的自然对数表述所述概念层级关系,进一步确定出与所述概念层级关系正相关的概念层级维度上的紧密性关系的取值,其中,对于无转折路径,概念路径距离route_dis为单边距离e_dis的累加Σe_dis,对于带转折路径,概念路径距离route_dis为单边距离e_dis的累加Σe_dis与路径转折惩罚t_penalty的乘积,单边距离e_dis为概念细化距离g_dis与概念层级惩罚g_penalty的乘积或概念泛化距离r_dis与概念层级惩罚g_penalty的乘积,其中,单边距离e_dis为一个属性层级关系树中两个直接相连的概念之间的路径距离,概念细化距离g_dis为按方向的上层概念到下层概念的路径距离,概念泛化距离r_dis为下层概念到上层概念的路径距离,概念层级惩罚g_penalty用于表征单边距离的概念细化和概念泛化程度,根据层级关系树中每层的概念数n确定,路径转折惩罚t_penalty用于表征概念间的转意程度,根据层级关系树深度H和路径最高层级节点深度h确定。
在本发明的一些实施方式中,根据垂直领域知识中的概念层级关系和概念同位关系、用户的搜索行为、用户的点击行为中的一者或一者以上确定概念的紧密性关系可包括:根据领域文本中同一属性下的概念a和概念b的并列共现频次cparallel(a,b)通过下述公式计算概念同位维度上的紧密性关系的取值:
p_score(a,b)为概念a和概念b在概念同位维度的紧密性关系的取值,c(a)为概念a在领域文本中的出现次数,N为置性度惩罚因子。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度在线网络技术(北京)有限公司,未经百度在线网络技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510050050.5/2.html,转载请声明来源钻瓜专利网。