[发明专利]一种挖掘热点词的方法与装置无效
申请号: | 201110307846.6 | 申请日: | 2011-10-12 |
公开(公告)号: | CN103049443A | 公开(公告)日: | 2013-04-17 |
发明(设计)人: | 罗侃;陈洪亮;杨志峰 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京德琦知识产权代理有限公司 11018 | 代理人: | 王一斌;王琦 |
地址: | 518044 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 挖掘 热点 方法 装置 | ||
技术领域
本发明涉及计算机通信技术,特别涉及一种挖掘热点词的方法与装置。
背景技术
随着计算机通信技术的发展,尤其是3g网络和智能移动终端的发展,用户的网络生活越来越丰富,在网络上聊天、浏览新闻、看电影、玩游戏、搜索、购物、发布信息等,越来越成为网络生活的一部分。例如,微博客(MicroBlog),即微博作为一个基于用户关系的信息分享、传播以及获取平台,用户可以通过WEB、WAP以及各种客户端组建个人社区,以140字左右的文字更新信息,并实现即时分享。
由于网络内容的丰富,网络用户从中获取相关信息所花费的时间也越来越多,为了提高用户的网络体验,各运营商通过热点词挖掘的方法,自动获取最新的时讯,及时向网络用户进行推荐,例如,根据微博输入的文本流信息,自动识别其中包含的热点词,并向关注的用户推荐热点信息,这样,在提升网络服务的同时,也有效降低了用户获取热点信息所需的时间。
图1为现有挖掘热点词的方法流程示意图。参见图1,该流程包括:
步骤101,获取输入的文本流;
本步骤中,通过对网页、微博包含的内容进行处理,获取网页、微博内容对应的文本流,文本流可以按照预先设定的时间周期进行获取,也可以进行随机获取。
步骤102,对文本流进行分词,获取候选词集;
本步骤中,对文本流进行分词获取文本流中包含的词语,具体可参见相关技术文献。
步骤103,将获取的候选词集与预先设置的热点词词表进行匹配,获取热点候选词集,并统计热点候选词的频率;
本步骤中,可以以人工的方式预先整理、收集一批热点事件中可能包含的待关注词语,例如地震、火灾、演讲、事故、北京、旅游、购物等词语组成热点词词表。
文本流输入之后,将经过分词处理获取的候选词集与热点词词表进行匹配,如果候选词集中的候选词包含在热点词词表中,则将候选词集中的该候选词作为热点候选词,放入热点候选词集中,并统计该热点候选词在候选词集中出现的次数或频率,即统计分词后出现在热点词词表中的词的频率。
步骤104,选取频率最高的预定数目的热点候选词作为热点词输出。
本步骤中,将频率最高的N个热点候选词作为热点词输出。
由上述可见,现有的挖掘热点词的方法,需要人工整理热点词词表,工作量大;同时,大量新出现的人名、地名、机构名可能是未登录词,即未被整理至热点词词表中进行收录,但这些词又往往是一个热点事件或主题的主要部分,使得基于人工整理形成的热点词词表挖掘范围小,不能挖掘到此类热点事件或主题,使得热点词挖掘效率较低;进一步地,很多热点词,例如北京、电影、绯闻等往往是一些频率较高的词,由于多个事件会包含该词,尤其是在微博平台中,网友聊天对话中极有可能夹带北京、绯闻这些词语,使得这些词被提及或频繁出现,但频繁出现的该词并不能反映出一个热点事件或是话题,也就是说,仅仅依靠词语在一定时间内的出现频率不能够真正反映出这个词语的热度;而且,输出的热点词是单个的词语,在缺乏上下文的环境中,单个词语难以反映一个热点事件或是话题,例如,对于输出的热点词为科特迪瓦的情形,在缺乏相关知识背景下,用户难以了解这个词语代表了哪一个热点的事件或是话题。
发明内容
有鉴于此,本发明的主要目的在于提出一种挖掘热点词的方法,能够扩展热点词的挖掘范围、提高热点词挖掘效率。
本发明的另一目的在于提出一种挖掘热点词的装置,能够扩展热点词的挖掘范围、提高热点词挖掘效率。
为达到上述目的,本发明提供了一种挖掘热点词的方法,该方法包括:
获取输入的文本流,对文本流进行分词,获取候选词集;
统计候选词集中各候选词在文本流中出现的当前频率,获取各候选词在预先存储的历史数据中的各历史频率;
根据候选词的当前频率以及各历史频率计算该候选词的频率异常性值,在历史数据中存储该候选词的当前频率信息并输出预定数目的频率异常的候选词。
在获取候选词集后,进一步包括:
将预先设置的停用词表与获取的候选词集进行匹配,将候选词集中与停用词表相匹配的词语进行过滤。
所述停用词表包括:无意义词语、和/或,高文档率词语。
所述获取各候选词在预先存储的历史数据中的各历史频率包括:
如果历史数据中存储有该候选词的各历史频率,读取该候选词的各历史频率;
如果历史数据中未存储有该候选词的历史频率,计算历史数据中存储的所有候选词的各历史频率的平均值,作为该候选词的各历史频率。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110307846.6/2.html,转载请声明来源钻瓜专利网。