[发明专利]一种搜索需求的挖掘方法、智能搜索方法及其装置有效
申请号: | 201210554903.5 | 申请日: | 2012-12-19 |
公开(公告)号: | CN103885947B | 公开(公告)日: | 2018-08-10 |
发明(设计)人: | 黄荣升;辜斯缪 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京鸿德海业知识产权代理事务所(普通合伙) 11412 | 代理人: | 袁媛 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 搜索 词表 搜索关键词 智能搜索 日志 挖掘 匹配 返回结果 过滤策略 搜索结果 搜索引擎 预设 过滤 关联 | ||
本发明提供了一种搜索需求的挖掘方法、智能搜索方法及其装置,其中搜索需求的挖掘方法包括:A.从搜索日志的关键词中确定泛需求词;B.从所述搜索日志中提取泛需求词对应的后继词;C.根据预设的过滤策略对泛需求词对应的后继词进行过滤,以得到泛需求词对应的精确需求词,并根据泛需求词与对应的精确需求词之间的关联强度建立对应关系词表。智能搜索方法包括:获取用户的搜索关键词;将所述搜索关键词与对应关系词表中的泛需求词进行匹配,并在匹配通过时,利用所述对应关系词表中所述搜索关键词对应的精确需求词获取第一搜索结果。通过上述方式,能够提高搜索引擎返回结果的准确性。
【技术领域】
本发明涉自然语言处理技术,特别涉及一种搜索需求的挖掘方法、智能搜索方法及其装置。
【背景技术】
随着互联网的普及,搜索引擎越来越成为人们生活中不可缺少的工具。搜索引擎极大地加快了信息传播的速度,改变了人们获取知识的途径,人们只需要向搜索引擎输入感兴趣的关键词,就可以从搜索引擎获取大量的相关信息。
但是,现有的搜索引擎是通过在索引库中查询用户输入的关键词来获取字面匹配的搜索结果的,在这种方式下,无论用户输入的是什么类型的关键词,搜索引擎均只能向用户返回字面匹配的搜索结果,由于搜索引擎无法判断用户搜索时的真实需求,因此无法自适应用户的需要,为用户返回更准确的搜索结果。
【发明内容】
本发明所要解决的技术问题是提供一种搜索需求的挖掘方法、智能搜索方法及其装置,以提高搜索引擎返回结果的准确性。
本发明为解决技术问题而采用的技术方案是提供一种搜索需求的挖掘方法,包括:A.从搜索日志的关键词中确定泛需求词;B.从所述搜索日志中提取泛需求词对应的后继词,并确定泛需求词与对应的后继词之间的关联强度,其中一个泛需求词的后继词是与该泛需求词共同出现在一个会话中且在该泛需求词之后出现的词语;C.根据预设的过滤策略对泛需求词对应的后继词进行过滤,以得到泛需求词对应的精确需求词,并根据泛需求词与对应的精确需求词之间的关联强度建立对应关系词表。
根据本发明之一优选实施例,所述步骤A中确定泛需求词的方式至少包括以下一种:方式一、从搜索日志中提取以预设的模式词表中的词为前缀的关键词作为泛需求词;或者,方式二、从搜索日志中提取以预设的模式词表中的词为前缀的关键词,并将提取的关键词去除所述前缀后的剩余部分作为泛需求词;或者,方式三、确定搜索日志中各关键词的后继词,并将属于同一实体类别的后继词所占比例超过第一设定阈值的关键词作为泛需求词,其中一个关键词的后继词是与该关键词共同出现在一个会话中且在该关键词之后出现的词语。
根据本发明之一优选实施例,所述步骤B中根据下列公式计算泛需求词X与对应的后继词Y之间的关联强度:其中,R表示X与Y的关联强度,m表示所述搜索日志中Y作为互异泛需求词的后继词出现的总次数,n表示所述搜索日志中Y作为X的后继词出现的总次数,wi表示Y在与X共同出现的第i个会话中的权重,其中wi的大小与第i个会话中X的后继词总数成反比,与第i个会话中Y作为X的后继词出现的位序成正比。
根据本发明之一优选实施例,所述过滤策略至少包括以下一种:策略一、将泛需求词对应的后继词中与该泛需求词之间的关联强度低于第二设定阈值的后继词过滤掉;策略二、将泛需求词对应的后继词中与该泛需求词具有相同分词的后继词过滤掉;策略三、将泛需求词对应的后继词中属于同一实体类别所占比例低于第三设定阈值的后继词过滤掉。
本发明还提供了一种智能搜索方法,包括:获取用户的搜索关键词;将所述搜索关键词与前文所述方法得到的对应关系词表中的泛需求词进行匹配,并在匹配通过时,利用所述对应关系词表中所述搜索关键词对应的精确需求词获取第一搜索结果。
根据本发明之一优选实施例,所述第一搜索结果中的各结果项分别由所述搜索关键词对应的不同精确需求词得到,且各结果项的排列顺序由得到该结果项的精确需求词与所述搜索关键词之间的关联强度确定。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210554903.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种信息处理方法及装置
- 下一篇:一种浅沟槽隔离结构的制备方法