[发明专利]实体词的热度获取方法及装置有效
申请号: | 201810203602.5 | 申请日: | 2018-03-13 |
公开(公告)号: | CN110309189B | 公开(公告)日: | 2023-04-18 |
发明(设计)人: | 李潇;郑孙聪 | 申请(专利权)人: | 深圳市腾讯计算机系统有限公司 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06N5/022;G06F18/25 |
代理公司: | 深圳市联鼎知识产权代理有限公司 44232 | 代理人: | 刘抗美 |
地址: | 518000 广东省深圳市南*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 实体词 热度 获取 方法 装置 | ||
本发明揭示了一种实体词的热度获取方法及装置,该方案包括:获取搜索日志数据集;根据实体词在所述搜索日志数据集中的提及量,获得所述实体词的关注度;根据所述实体词在已有知识库中的重要程度,将所述实体词的关注度与重要程度进行多源融合,获得所述实体词的当前热度。通过采用本发明提供的技术方案,将实体词的关注度和重要程度进行融合得到实体词的热度,既提高了实体词热度的获取准确性,又解决了依靠人的主观意志来判定实体词热度,造成的人力资源浪费以及判定速度慢的问题。
技术领域
本发明涉及数据挖掘技术领域,特别涉及一种实体词的热度获取方法及装置。
背景技术
实体词热度是指实体词在当前阶段的受欢迎程度。在搜索引擎处理中,实体词热度非常重要,直接影响查询词语的检索结果。
实体词的热度获取是一种数据挖掘技术。传统的实体词热度问题很大程度上依靠人的主观意志来判定,因而带来了浪费人力、速度慢且人为因素影响太严重等问题。
目前主要利用知识图谱中实体词之间的链接信息,计算实体词的pagerank(佩奇排名)值,进而得到实体词的热度。到那时随着互联网的普及和飞速发展,每日海量的新闻数据在网络上涌现,网络用语由此变得越来越丰富多彩,譬如“萝莉”、“老司机”等新词层出不穷。而知识图谱更新较慢,对于一些网络新词,难以快速在知识图谱中更新其链接关系,由此计算得到的实体词的热度偏低,获得的实体词热度的准确性不高。
发明内容
为了解决相关技术中存在的实体词热度的获取准确性不高的问题,本发明提供了一种实体词的热度获取方法。
本发明提供了一种实体词的热度获取方法,包括:
获取搜索日志数据集;
根据实体词在所述搜索日志数据集中的提及量,获得所述实体词的关注度;
根据所述实体词在已有知识库中的重要程度,将所述实体词的关注度与重要程度进行多源融合,获得所述实体词的当前热度。
在一种示例性实施例中,所述根据实体词在所述搜索日志数据集中的提及量,获得所述实体词的关注度之前,所述方法还包括:
根据所述实体词在所述搜索日志数据集中的查询语句,将所述查询语句与表达方式模板进行匹配,获得包含所述实体词的查询语句与所述表达方式模板之间的匹配成功次数;
根据所述实体词在所述搜索日志数据集中的提及次数以及所述匹配成功次数,累计获得所述实体词的提及量。
在一种示例性实施例中,所述根据实体词在所述搜索日志数据集中的提及量,获得所述实体词的关注度之前,所述方法还包括:
根据已构建的实体属性关系,在所述搜索日志数据集中统计所述实体词与对应属性词同时出现的次数,获得所述实体词的正向匹配次数;
根据所述实体词在所述搜索日志数据集中的提及次数以及所述正向匹配次数,累计获得所述实体词的提及量。
在一种示例性实施例中,所述根据实体词在所述搜索日志数据集中的提及量,获得所述实体词的关注度之前,所述方法还包括:
根据已构建的实体属性关系,在所述搜索日志数据集中统计所述实体词作为属性词与对应实体同时出现的次数,获得所述实体词的反向匹配次数;
根据所述实体词在所述搜索日志数据集中的提及次数以及所述反向匹配次数,累计获得所述实体词的提及量。
在一种示例性实施例中,所述根据实体词在所述搜索日志数据集中的提及量,获得所述实体词的关注度,包括:
对所述实体词的提及量进行归一化,得到所述实体词的关注度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市腾讯计算机系统有限公司,未经深圳市腾讯计算机系统有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810203602.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:内容聚类方法及装置
- 下一篇:一种基于车载终端的车友推荐方法及系统、车载终端