[发明专利]一种用于垂直领域的概念处理方法和装置有效
申请号: | 201510047439.4 | 申请日: | 2015-01-29 |
公开(公告)号: | CN104598609B | 公开(公告)日: | 2017-12-08 |
发明(设计)人: | 孙连生;王超越;李婷婷;赵世奇 | 申请(专利权)人: | 百度在线网络技术(北京)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 广州三环专利商标代理有限公司44202 | 代理人: | 温旭,郝传鑫 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 用于 垂直 领域 概念 处理 方法 装置 | ||
技术领域
本发明涉及数据搜索领域,更为具体而言,涉及一种用于垂直领域的概念处理方法和装置。
背景技术
垂直领域是相对于通用领域而言的,主要指非综合的、对某一特定领域的专业、深入的细分,诸如教育、特卖、医疗之类的非标准化消费品领域都属于垂直领域。各个垂直领域包括其对应的概念集合,例如,医疗垂直领域可包括糖尿病、内科、盘尼西林、人民医院等概念。
对于垂直领域内数据检索,目前主要是通过字符串匹配用户的查询关键字进行,向用户推荐的相关搜索,主要是通过查找与用户查询关键字相似的高频句子进行。这样的匹配查询方式,只能为用户展现包括用户查询关键字的内容,对于专业性较强的垂直领域而言,查询结果的丰富度较低,而且相关搜索推荐的知识维度也较少。
发明内容
为解决上述技术问题,本发明提供了用于垂直领域的概念处理方法和装置,确定用户搜索句子的概念表达以及该概念表达在垂直领域内的位置信息,并利用确定出的垂直领域位置信息对概念表达进行扩展,并基于句子的连贯性选择相应的扩展,提高了搜索结果的丰富度,也便于推荐相关知识维度的搜索。
根据本发明实施方式的第一方面,提供了一种用于垂直领域的概念处理方法,可包括:
判定用户的搜索句子所属的垂直领域类别,
确定所述搜索句子的概念表达,并根据所述概念表达与该概念表达指向的一个或多个知识体系概念的集合的距离确定所述概念表达在所述垂直领域类别中的位置信息,
根据句子的连贯性和所述位置信息对所述搜索句子的概念表达进行扩展,所述句子的连贯性通过损失率L进行计算,
其中,损失率L通过计算扩展后的句子S′出现的概率P(S′)减去用户的搜索句子S出现的概率P(S)的差值,并将所述差值与用户的搜索句子S出现的概率P(S)相除获得。
在本发明的一些实施方式中,所述判定用户的搜索句子所属的垂直领域类别可包括:提取用户的搜索句子的下述特征:用户的搜索句子的点击行为、用户点击的网站的置信度和摘要、用户的搜索句子的基本词粒度分词词语、用户的搜索句子的短语粒度的分词词语;基于用户搜索日志中的搜索数据获得的模型对特征提取后的搜索句子进行垂直领域类别判定。
在本发明的一些实施方式中,所述确定所述搜索句子的概念表达可包括:识别所述搜索句子中的一个或多个组合词语的集合,将所述集合中的组合词语生成邻接表,该邻接表的表头为所述搜索句子中的词语,表中各词语元素按顺序组合构成所述垂直领域类别中的概念,使用贪心算法计算所述邻接表中最长的组合词语作为所述搜索句子的概念表达。
在本发明的一些实施方式中,所述根据所述概念表达与该概念表达指向的一个或多个知识体系概念的集合的距离确定所述概念表达在所述垂直领域类别中的位置信息可包括:根据下述公式确定所述概念表达与该概念表达指向的一个或多个知识体系概念的集合的距离:
其中,c为概念表达,T为概念表达c指向的一个知识体系概念的集合,D(c,T)为概念表达c到一个或多个知识体系概念的集合的距离,N为集合T中概念t的个数,
D(c,t)为概念表达c到集合T中一个概念t的距离,S为将概念表达c替换为t之后的句子,P(S)为将概念表达c替换为t之后的句子S出现的概率,W为S分词后的词语,
选择与所述概念表达距离最小的一个知识体系概念的集合作为所述概念表达在所述垂直领域类别中的位置信息。
在本发明的一些实施方式中,所述根据句子的连贯性和所述位置信息对所述搜索句子的概念进行扩展可包括:根据所述位置信息对所述搜索句子的概念进行添加扩展和/或替换扩展,并根据扩展前后句子的损失率阈值选取一个或多个扩展后的句子作为所述搜索句子的扩展结果。
根据本发明实施方式的第二方面,提供了一种用于垂直领域的概念处理装置,该装置可包括:
分类模块,用于判定用户的搜索句子所属的垂直领域类别,
识别模块,用于确定所述搜索句子的概念表达,并根据所述概念表达与该概念表达指向的一个或多个知识体系概念的集合的距离确定所述概念表达在所述垂直领域类别中的位置信息,
扩展模块,用于:
根据句子的连贯性和所述位置信息对所述搜索句子的概念表达进行扩展,所述句子的连贯性通过损失率L进行计算,
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度在线网络技术(北京)有限公司,未经百度在线网络技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510047439.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:光学检测机
- 下一篇:用于采样过程的去干扰的方法以及用于实施该方法的装置