[发明专利]一种热点数据处理方法及其设备有效
申请号: | 201611124269.6 | 申请日: | 2016-12-08 |
公开(公告)号: | CN108182191B | 公开(公告)日: | 2022-01-18 |
发明(设计)人: | 孙钟前;李宏杰;唐柯;尹光宗;陈杨;吕远方;韩耀庆;林孟光;方圆;霍然 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F16/9535 | 分类号: | G06F16/9535;G06F16/955;G06F40/289;G06F40/284 |
代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 郝传鑫;熊永强 |
地址: | 518057 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 热点 数据处理 方法 及其 设备 | ||
1.一种热点数据处理方法,其特征在于,包括:
获取多个数据站点在第一预设时间段内存储的当前原始数据集合,并记录所述当前原始数据集合中各个数据站点对应的各当前原始数据间的关联关系;
对所述各当前原始数据进行预处理,所述预处理包括分词处理和分类处理;
分别提取预处理后的所述各当前原始数据的数据标题,并在所述各当前原始数据的数据标题中确定热点数据的数据标题;
根据所述热点数据的数据标题获取所述热点数据的数据标签信息,所述数据标签信息包含所述热点数据的分词处理结果、分词处理结果中的关键字段和内容集合的数据标签信息;
基于所述各当前原始数据间的关联关系,在所述当前原始数据集合中获取与所述数据标签信息相关联的第一原始数据;
获取在所述第一原始数据中筛选的热点数据,采用预设先验词库以及所述热点数据的关键字段对所述热点数据进行延展调整处理,并对延展调整处理后的所述热点数据进行输出,所述延展调整处理包括数据内容筛选处理以及排序处理;
其中,所述采用预设先验词库以及所述热点数据的关键字段对所述热点数据进行延展调整处理,包括:
依据预先训练的先验词库对所述热点数据中的关键字段进行匹配,若检测到所述热点数据中的多个关键字段中存在多个先验词,确定所述热点数据的数据内容的排序优先级最高;
若检测到所述热点数据中的多个关键字段中仅存在一个先验词,则对所述热点数据的数据子标题进行向量化,并计算所述热点数据的数据子标题的标题向量余弦夹角与数据标题的标题向量余弦夹角的相似度,若所述相似度大于预设相似度阈值,则确定所述热点数据的数据内容的排序优先级次高;
若检测到所述热点数据中的多个关键字段中不存在先验词或仅存在一个不属于先验词的关键字段,则获取所述热点数据的社交类因子作为热点数据,并确定所述热点数据的数据内容的排序优先级别最低;
若检测到所述热点数据仅存在一个关键字段且属于先验词,则将所述热点数据作为所述关键字段的后续延展内容。
2.根据权利要求1所述的方法,其特征在于,所述分别提取预处理后的所述各当前原始数据的数据标题,并在所述各当前原始数据的数据标题中确定热点数据的数据标题,包括:
分别提取预处理后的所述各当前原始数据的数据标题;
采用预设过滤规则对所述各当前原始数据的数据标题进行过滤处理,以获取至少一个数据标题;
分别计算所述至少一个数据标题中各数据标题对应的热度信息;
根据所述各数据标题对应的热度信息确定热点数据的数据标题。
3.根据权利要求2所述的方法,其特征在于,所述预设过滤规则包括:
过滤分类处理结果属于预设类别的第一数据标题;和,
过滤分词处理结果属于预设词性搭配的第二数据标题;和,
过滤数据标题长度小于预设长度阈值的第三标题数据;和,
过滤属于预设标题的第四标题数据;中的至少一种。
4.根据权利要求1所述的方法,其特征在于,所述获取在所述第一原始数据中筛选的热点数据,并对所述热点数据进行输出之前,还包括:
在预先存储的历史原始数据集合中获取与所述数据标签信息匹配相似度大于预设相似度阈值的第二原始数据;
其中,所述历史原始数据集合为历史获取的所述多个数据站点在第二预设时间段内除所述第一预设时间段所存储的数据集合。
5.根据权利要求4所述的方法,其特征在于,还包括:
获取在所述第一原始数据和所述第二原始数据中筛选的热点数据;
采用预设先验词库以及所述热点数据的关键字段对所述热点数据进行延展调整处理,并对延展调整处理后的所述热点数据进行输出。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611124269.6/1.html,转载请声明来源钻瓜专利网。