[发明专利]一种热词确定方法、装置、终端及存储介质在审
申请号: | 201910477292.0 | 申请日: | 2019-06-03 |
公开(公告)号: | CN110245351A | 公开(公告)日: | 2019-09-17 |
发明(设计)人: | 金竹;王欢;闫刚;楚国庆;孙瑛瑛;刘洋 | 申请(专利权)人: | 北京清博大数据科技有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F16/9536 |
代理公司: | 北京联瑞联丰知识产权代理事务所(普通合伙) 11411 | 代理人: | 苏友娟 |
地址: | 100044 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 热词 词频 分词 存储介质 终端 分词结果 排序结果 文本信息 文档频率 应用场景 语义分析 预设 排序 采集 统计 | ||
1.一种热词确定方法,其特征在于,包括:
对采集的文本信息进行语义分析,得到分词结果;
统计各分词的第一词频;
根据所述各分词的第一词频及预设各分词的逆向文档频率得到各分词的第二词频;
对所述各分词的第二词频进行排序,根据排序结果确定热词。
2.根据权利要求1所述的热词确定方法,其特征在于,所述根据所述各分词的第一词频及预设各分词的逆向文档频率得到各分词的第二词频,具体为:用所述各分词的第一词频除以预设各分词的逆向文档频率得到各分词的第二词频。
3.根据权利要求1所述的热词确定方法,其特征在于,所述预设各分词的逆向文档频率的确定步骤为:采集微信预设时间段的文本信息,对所述文本信息进行分词,统计各分词的词频,根据所述各分词的词频确定各分词的逆向文档频率。
4.根据权利要求1-3任一项所述的热词确定方法,其特征在于,所述对采集的文本信息进行语义分析,得到分词结果,具体为:通过爬虫采集文本信息,对采集的文本信息进行去重和格式统一化处理,对处理后的文本信息进行语义分析,得到分词结果。
5.根据权利要求1-3任一项所述的热词确定方法,其特征在于,所述对所述各分词的第二词频进行排序,根据排序结果确定热词,具体为:对所述各分词的第二词频进行排序,取排序从高到低的预设数量的分词为热词。
6.一种热词确定装置,其特征在于,包括:
分词结果获取模块,用于对采集的文本信息进行语义分析,得到分词结果;
第一词频统计模块,用于统计各分词的第一词频;
第二词频确定模块,用于根据所述各分词的第一词频及预设各分词的逆向文档频率得到各分词的第二词频;
热词确定模块,用于对所述各分词的第二词频进行排序,根据排序结果确定热词。
7.根据权利要求6所述的热词确定装置,其特征在于,所述第二词频确定模块中,根据所述各分词的第一词频及预设各分词的逆向文档频率得到各分词的第二词频,具体为:用所述各分词的第一词频除以预设各分词的逆向文档频率得到各分词的第二词频。
8.根据权利要求6所述的热词确定装置,其特征在于,还包括逆向文档频率确定模块,用于采集微信预设时间段的文本信息,对所述文本信息进行分词,统计各分词的词频,根据所述各分词的词频确定各分词的逆向文档频率。
9.一种终端,其特征在于,包括:一个或多个处理器、一个或多个存储器;所述一个或多个存储器与所述一个或多个处理器耦合,所述一个或多个存储器用于存储计算机程序代码,所述计算机程序代码包括计算机指令,当所述一个或多个处理器执行所述计算机指令时,所述终端执行如权利要求1-5任一项所述的热词确定方法。
10.一种计算机存储介质,其特征在于,包括计算机指令,当所述计算机指令在终端上运行时,使得所述终端执行如权利要求1-5任一项所述的热词确定方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京清博大数据科技有限公司,未经北京清博大数据科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910477292.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:文案改写与更新方法、装置及设备
- 下一篇:一种舆情热词分析方法及装置