[发明专利]基于BM25的搜索相关性度量方法、存储介质、设备及系统在审
申请号: | 201810311995.1 | 申请日: | 2018-04-09 |
公开(公告)号: | CN110362813A | 公开(公告)日: | 2019-10-22 |
发明(设计)人: | 王璐;陈少杰;张文明 | 申请(专利权)人: | 武汉斗鱼网络科技有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 武汉智权专利代理事务所(特殊普通合伙) 42225 | 代理人: | 张凯 |
地址: | 430000 湖北省武汉市东湖开*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 搜索 匹配 搜索查询 意图识别 设备及系统 存储介质 度量 分词 度量计算 分词处理 大数据 算法 文本 衡量 | ||
本发明公开了一种基于BM25的搜索相关性度量方法、存储介质、设备及系统,涉及大数据搜索领域,包括对用户的搜索查询文本进行分词处理,得到多个分词;基于得到的分词,对用户的搜索意图匹配的相关性进行计算;对计算得到的搜索意图匹配相关性得分进行判断,若搜索意图匹配相关性得分大于设定阈值,则用户此次搜索查询的意图识别有效,否则用户此次搜索查询的意图识别无效。本发明基于BM25算法进行搜索意图识别相关性度量计算,对意图匹配的相关性进行有效衡量。
技术领域
本发明涉及大数据搜索领域,具体涉及一种基于BM25的搜索相关性度量方法、存储介质、设备及系统。
背景技术
在直播领域,直播服务器可以根据用户的搜索词或短句查询来猜测用户的真实意图,即根本用户的模糊或不太准确的搜索词来猜测用户真实要搜索的内容,通过其真实意图返回给用户更加准确的搜索结果。然而,返回的结果究竟能够在多大程度上反映用户的真实意图是需要进行度量的,如果相关性较差,那么这种识别出来的弱意图产生的实际效用会非常低。因此,我们需要解决的问题是如何对意图匹配的相关性进行衡量,从而判断意图识别的有效性。
不同于直接根据搜索词的文本匹配返回结果的场景,在使用意图识别算法后返回的搜索结果与搜索词之间可能并没有文本上的相关性,因此采用文本距离去衡量相关性就显得十分片面。而采用TF-IDF的搜索意图识别相关性度量方法,虽然可以解决传统相关性度量方法无法适用的问题,然而在该算法中,意图域中词的总数对相关性的影响非常大。TF-IDF(term frequency–inverse document frequency)是一种用于信息检索与数据挖掘的常用加权技术。
发明内容
针对现有技术中存在的缺陷,本发明的目的在于提供一种基于BM25的搜索相关性度量方法,基于BM25算法进行搜索意图识别相关性度量计算,对意图匹配的相关性进行有效衡量。
为达到以上目的,本发明采取的技术方案是,包括:
对用户的搜索查询文本进行分词处理,得到多个分词;
基于得到的分词,对用户的搜索意图匹配的相关性进行计算:
其中,RQ为搜索意图匹配相关性得分,ti表示得到的分词中的第i个分词,H为意图域集合,由多个不同的意图域f组成,表示分词ti在意图域f中可以匹配到的次数,wf为意图域f在意图域集合H中的权重,是分词ti的倒排文档频率,Kf=k1*(1-b+b*nf/avg(nf)),其中,nf是意图域f中词的个数,k1和b是调节因子,avg(nf)是意图域集合中所有意图域的平均含有词个数;
对计算得到的搜索意图匹配相关性得分进行判断,若搜索意图匹配相关性得分大于设定阈值,则用户此次搜索查询的意图识别有效,否则用户此次搜索查询的意图识别无效。
在上述技术方案的基础上,对于其计算公式为:
其中,N是在设定时间段内所有分词查询的次数,N(ti)为在设定时间段内分词ti的查询次数。
在上述技术方案的基础上,所述搜索意图为基于用户的搜索文本判断得到的用户实际要搜索的意图内容。
在上述技术方案的基础上,所述意图域为根据业务经验对用户的搜索意图进行划分的意图集合,且每个意图域由多个索引词组成。
在上述技术方案的基础上,在直播领域的搜索中,意图域集合包括主播意图域和分区意图域。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉斗鱼网络科技有限公司,未经武汉斗鱼网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810311995.1/2.html,转载请声明来源钻瓜专利网。