[发明专利]用于挖掘直播间搜索词的同义词的方法、相关存储介质和设备在审
申请号: | 201810159371.2 | 申请日: | 2018-02-24 |
公开(公告)号: | CN108334631A | 公开(公告)日: | 2018-07-27 |
发明(设计)人: | 王璐;陈少杰;张文明 | 申请(专利权)人: | 武汉斗鱼网络科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 中科专利商标代理有限责任公司 11021 | 代理人: | 张成新 |
地址: | 430000 湖北省武汉市武汉东湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 搜索词 同义词 挖掘 词库 余弦相似度 搜索 直播 查询 计算机可读存储介质 预设时间段 存储介质 电子设备 信息计算 正整数 排序 | ||
1.一种用于挖掘直播间搜索词的同义词的方法,包括以下步骤:
S1,获取在预设时间段内待查询搜索词和待挖掘的搜索词库中的每一搜索词分别所对应的被点击的直播间的信息;
S2,利用步骤S1获得的所述信息计算所述待查询搜索词与所述待挖掘的搜索词库中的每一搜索词之间的余弦相似度值;
S3,按照所述余弦相似度值的大小对所述待挖掘的搜索词库中的搜索词进行从大到小排序,并且选择前N个搜索词作为所述待查询搜索词的同义词,其中N为预先设定的正整数。
2.如权利要求1所述的方法,其特征在于,所述步骤S1进一步包括:
S11,获取所述待查询搜索词Q所对应的被点击的直播间集合R,其中,对于任意一个直播间r,r∈R,其被点击的次数是CQr;
S22,获取待挖掘搜索词库中的每一搜索词Qj所对应的被点击的直播间集合Rj,1≤j≤m,m为待挖掘搜索词库中待挖掘搜索词总数,其中,对于任意一个直播间r,r∈Rj,其被点击的次数是
3.如权利要求2所述的方法,其特征在于,根据下式计算所述待查询搜索词Q与所述待挖掘搜索词库中的每一搜索词Qj之间的余弦相似度值:
其中,cos sim(Q,Qj)是所述待查询搜索词Q和所述待挖掘搜索词库中的每一搜索词Qj的余弦相似度。
4.如权利要求2所述的方法,其特征在于,所述步骤S22进一步包括:
获取待挖掘的搜索词库中的每一搜索词Qj所对应的被搜索次数。
5.如权利要求4所述的方法,其特征在于,所述步骤S3进一步包括:
按照所述余弦相似度值的大小对所述待挖掘的搜索词库中的搜索词进行从大到小排序,在所述前N个搜索词中选择被搜索次数大于S次的作为所述待查询搜索词的同义词,其中S为预先设定的正整数。
6.一种计算机可读存储介质,其上存储有可执行指令,其特征在于,所述指令在由处理器执行时,实现如权利要求1-5中任一项所述的方法的步骤。
7.一种电子设备,包括:
存储器,用于存储可执行指令;以及
处理器,用于执行所述存储器中存储的可执行指令,以实现如权利要求1-5中任一项所述的方法的步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉斗鱼网络科技有限公司,未经武汉斗鱼网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810159371.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种URL分类方法及系统
- 下一篇:数据更新方法、装置、计算机设备和存储介质