[发明专利]一种事件挖掘方法和装置在审
申请号: | 202010672732.0 | 申请日: | 2020-07-14 |
公开(公告)号: | CN111767404A | 公开(公告)日: | 2020-10-13 |
发明(设计)人: | 康战辉 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06N3/04;G06N3/08 |
代理公司: | 深圳翼盛智成知识产权事务所(普通合伙) 44300 | 代理人: | 彭绪坤 |
地址: | 518057 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 事件 挖掘 方法 装置 | ||
本申请公开了一种事件挖掘方法和装置;本申请可以从文本数据集中提取多个参考文本;对所述多个参考文本进行事件分类,得到事件文本集,所述事件文本集包括与目标事件相关联的参考文本;对所述事件文本集中的参考文本进行聚类处理,得到子事件对应的聚类后文本集,其中,所述子事件从属于所述目标事件;分析所述文本数据集中目标文本的文本数量、与所述目标文本的搜索时间之间的映射关系,得到分析结果,其中,所述目标文本为所述文本数据集中属于所述子事件的文本;基于所述分析结果对所述子事件进行周期性判别,并输出周期性判别结果。本申请可以实现周期性事件的自动挖掘,提高了事件挖掘结果的准确性,同时还可以提升挖掘效率。
技术领域
本申请涉及计算机技术领域,具体涉及一种事件挖掘方法和装置。
背景技术
随着计算机技术和网络技术的飞速发展,互联网在人们的日常生活和工作学习中发挥的作用也越来越大,人们经常通过互联网来搜索各种资讯信息。在每年特定的时间段都会发生一些特定的活动或事件,例如高考、节假日和一些固定年度赛季等,即使具体每年事件发生的确切日期不一定一样,但在这些事件发生的前、中、后等不同时间段,用户在搜索引擎中对这些事件的搜索行为会表现出有规律的周期性特点,产品运营人员会对这些周期性事件加以运营。
在目前的相关技术中,一般基于人工经验的方式,收集一些典型的周期性事件词,这样挖掘的效率太低,而且挖掘结果准确率相对较低。
发明内容
本申请实施例提供一种事件挖掘方法和装置,实现了周期性事件的自动挖掘,提高了事件挖掘结果的准确性,同时还可以提升挖掘效率。
本申请实施例提供一种事件挖掘方法,包括:
从文本数据集中提取多个参考文本,其中,所述文本数据集包括原始文本、以及所述原始文本的搜索时间;
对所述多个参考文本进行事件分类,得到事件文本集,所述事件文本集包括与目标事件相关联的参考文本;
对所述事件文本集中的参考文本进行聚类处理,得到子事件对应的聚类后文本集,其中,所述子事件从属于所述目标事件;
分析所述文本数据集中目标文本的文本数量、与所述目标文本的搜索时间之间的映射关系,得到分析结果,其中,所述目标文本为所述文本数据集中属于所述子事件的文本;
基于所述分析结果对所述子事件进行周期性判别,并输出周期性判别结果。
相应的,本申请实施例提供一种事件挖掘装置,包括:
提取单元,用于从文本数据集中提取多个参考文本,其中,所述文本数据集包括原始文本、以及所述原始文本的搜索时间;
分类单元,用于对所述多个参考文本进行事件分类,得到事件文本集,所述事件文本集包括与目标事件相关联的参考文本;
聚类单元,用于对所述事件文本集中的参考文本进行聚类处理,得到子事件对应的聚类后文本集,其中,所述子事件从属于所述目标事件;
分析单元,用于分析所述文本数据集中目标文本的文本数量、与所述目标文本的搜索时间之间的映射关系,得到分析结果,其中,所述目标文本为所述文本数据集中属于所述子事件的文本;
判别单元,用于基于所述分析结果对所述子事件进行周期性判别,并输出周期性判别结果。
可选的,在本申请的一些实施例中,所述分类单元可以包括获取子单元、卷积子单元、预测子单元和第一确定子单元,如下:
所述获取子单元,用于获取各个参考文本对应的词向量;
卷积子单元,用于对各个参考文本对应的词向量进行卷积操作和池化操作,得到各个参考文本对应的特征信息;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010672732.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:改良散热设备
- 下一篇:一种含有黑芝麻黑色素的植物染发剂