[发明专利]一种热词确定方法、装置、终端及存储介质在审
申请号: | 201910477292.0 | 申请日: | 2019-06-03 |
公开(公告)号: | CN110245351A | 公开(公告)日: | 2019-09-17 |
发明(设计)人: | 金竹;王欢;闫刚;楚国庆;孙瑛瑛;刘洋 | 申请(专利权)人: | 北京清博大数据科技有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F16/9536 |
代理公司: | 北京联瑞联丰知识产权代理事务所(普通合伙) 11411 | 代理人: | 苏友娟 |
地址: | 100044 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 热词 词频 分词 存储介质 终端 分词结果 排序结果 文本信息 文档频率 应用场景 语义分析 预设 排序 采集 统计 | ||
本发明公开了一种热词确定方法、装置、终端及存储介质,该方法包括:对采集的文本信息进行语义分析,得到分词结果;统计各分词的第一词频;根据所述各分词的第一词频及预设各分词的逆向文档频率得到各分词的第二词频;对所述各分词的第二词频进行排序,根据排序结果确定热词。本发明提供的热词确定方法、装置、终端及存储介质,可以确定出更符合实际应用场景的热词,热词更具代表性。
技术领域
本发明涉及热词识别技术领域,特别涉及一种热词确定方法、装置、终端及存储介质。
背景技术
在当前互联网信息不断增长的背景下,如何快速获取海量信息中提及的事物、人物、现象等成为大家关注的热点。
目前,一种确定热词的方法是:将数据经过结构化处理,分词操作,然后存储,再经过统计每个词的词频,排序后取排名靠前的即为热词。
但是,现有技术中有以下不足之处:将文章进行分词处理后再统计出的词频并不能排除一些日常用词,日常用词词频很高,但并不是热词代表。
发明内容
本发明提供一种热词确定方法、装置、终端及存储介质,可以确定出更符合实际应用场景的热词,热词更具代表性。
第一方面,本发明实施例提供了一种热词确定方法,包括:
对采集的文本信息进行语义分析,得到分词结果;
统计各分词的第一词频;
根据所述各分词的第一词频及预设各分词的逆向文档频率得到各分词的第二词频;
对所述各分词的第二词频进行排序,根据排序结果确定热词。
优选地,所述根据所述各分词的第一词频及预设各分词的逆向文档频率得到各分词的第二词频,具体为:用所述各分词的第一词频除以预设各分词的逆向文档频率得到各分词的第二词频。
优选地,所述预设各分词的逆向文档频率的确定步骤为:采集微信预设时间段的文本信息,对所述文本信息进行分词,统计各分词的词频,根据所述各分词的词频确定各分词的逆向文档频率。
优选地,所述对采集的文本信息进行语义分析,得到分词结果,具体为:通过爬虫采集文本信息,对采集的文本信息进行去重和格式统一化处理,对处理后的文本信息进行语义分析,得到分词结果。
优选地,所述对所述各分词的第二词频进行排序,根据排序结果确定热词,具体为:对所述各分词的第二词频进行排序,取排序从高到低的预设数量的分词为热词。
第二方面,本发明实施例提供了一种热词确定装置,包括:
分词结果获取模块,用于对采集的文本信息进行语义分析,得到分词结果;
第一词频统计模块,用于统计各分词的第一词频;
第二词频确定模块,用于根据所述各分词的第一词频及预设各分词的逆向文档频率得到各分词的第二词频;
热词确定模块,用于对所述各分词的第二词频进行排序,根据排序结果确定热词。
优选地,所述第二词频确定模块中,根据所述各分词的第一词频及预设各分词的逆向文档频率得到各分词的第二词频,具体为:用所述各分词的第一词频除以预设各分词的逆向文档频率得到各分词的第二词频。
优选地,还包括逆向文档频率确定模块,用于采集微信预设时间段的文本信息,对所述文本信息进行分词,统计各分词的词频,根据所述各分词的词频确定各分词的逆向文档频率。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京清博大数据科技有限公司,未经北京清博大数据科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910477292.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:文案改写与更新方法、装置及设备
- 下一篇:一种舆情热词分析方法及装置