[发明专利]热词的处理方法及装置在审
申请号: | 201511001316.3 | 申请日: | 2015-12-28 |
公开(公告)号: | CN106919552A | 公开(公告)日: | 2017-07-04 |
发明(设计)人: | 李新国;何鑫 | 申请(专利权)人: | 北京国双科技有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30 |
代理公司: | 北京康信知识产权代理有限责任公司11240 | 代理人: | 韩建伟,朱晓飞 |
地址: | 100086 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 处理 方法 装置 | ||
技术领域
本申请涉及计算机领域,具体而言,涉及一种热词的处理方法及装置。
背景技术
在对一些话题进行分析时,通常都会需要统计话题中的热词,热词是指在与话题相关的文本中出现次数达到一定百分比的N个词。而在统计热词的过程中经常会遇到相同领域下,不同话题间的热词相似度很大的情况,以及一些该领域常见的热词会在该领域下的几乎所有话题中都会出现的情况。例如分析法律案件的话题时,无论话题是离婚案件还是交通事故案件或者民事纠纷案件,都会出现诸如“原告”、“被告”等词,此类词在所有法律案件的话题中都会出现,因此上述热词的特征程度较低,为非特征词。所以对于表述某个法律案件的话题的特征没有帮助,需要去除掉。现有技术中,通过人工统计的方式将所有话题中都出现的热词删除掉,上述人工统计的方式有如下缺点:第一,人工统计容易发生遗漏;第二,人工统计的准确度不高;第三,人工统计耗时较长。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本申请实施例提供了一种热词的处理方法及装置,以至少解决现有技术中由于采用人工方式删除特征程度较低的热词,导致效率低的技术问题。
根据本申请实施例的一个方面,提供了一种热词的处理方法,包括:获取各个话题的热词,得到多个热词;计算每个热词在话题集合中的熵值,其中,所述话题集合为所述各个话题的集合,所述熵值用于表征所述热词的特征程度;从所述多个热词中筛选出熵值大于第一预设阈值的热词,得到第一目标热词;在所述各个话题的热词中删除所述第一目标热词。
进一步地,计算每个热词在话题集合中的熵值包括:计算热词Ai在目标话题Bij中出现的概率Pij,其中,i依次取1至n,n为所述多个热词的数量,j依次取1至m(i),m(i)为所述热词Ai对应的目标话题的数量之和,所述目标话题Bij为所述各个话题中所述热词Ai出现的话题;根据概率Pi1至概率Pim(i)计算所述热词Ai在所述话题集合中的熵值。
进一步地,根据概率Pi1至概率Pim(i)计算所述热词Ai在所述话题集合中的熵值包括:根据公式计算所述热词Ai在所述话题集合中的熵值,其中,HAi为所述热词Ai在所述话题集合中的熵值。
进一步地,计算热词Ai在目标话题Bij中出现的概率Pij包括:统计所述热词Ai在所述目标话题Bij中出现的次数Cij;统计所述目标话题Bij中包含的热词的总出现次数Cij';根据所述次数Cij和所述总出现次数Cij'计算所述热词Ai在所述目标话题Bij中出现的概率Pij。
进一步地,从所述多个热词中筛选出熵值大于第一预设阈值的热词,得到第一目标热词包括:判断热词Ai的熵值是否大于所述第一预设阈值,其中,i依次取1至n,n为所述多个热词的数量;在判断出所述热词Ai的熵值大于所述第一预设阈值的情况下,确定所述热词Ai为所述第一目标热词。
进一步地,在所述各个话题的热词中删除所述第一目标热词之后,所述方法还包括:从所述多个热词中筛选出熵值大于第二预设阈值的热词,得到第二目标热词,其中,所述第二预设阈值小于所述第一预设阈值;在所述各个话题的删除所述第一目标热词后的剩余热词中删除所述第二目标热词。
根据本申请实施例的另一方面,还提供了一种热词的处理装置,包括:获取单元,用于获取各个话题的热词,得到多个热词;计算单元,用于计算每个热词在话题集合中的熵值,其中,所述话题集合为所述各个话题的集合,所述熵值用于表征所述热词的特征程度;第一筛选单元,用于从所述多个热词中筛选出熵值大于第一预设阈值的热词,得到第一目标热词;第一删除单元,用于在所述各个话题的热词中删除所述第一目标热词。
进一步地,所述计算单元包括:第一计算模块,用于计算热词Ai在目标话题Bij中出现的概率Pij,其中,i依次取1至n,n为所述多个热词的数量,j依次取1至m(i),m(i)为所述热词Ai对应的目标话题的数量之和,所述目标话题Bij为所述各个话题中所述热词Ai出现的话题;第二计算模块,用于根据概率Pi1至概率Pim(i)计算所述热词Ai在所述话题集合中的熵值。
进一步地,所述第二计算模块包括:第一计算子模块,用于根据公式计算所述热词Ai在所述话题集合中的熵值,其中,HAi为所述热词Ai在所述话题集合中的熵值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京国双科技有限公司,未经北京国双科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201511001316.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种3D打印的手机、平板电脑支架
- 下一篇:自动气象站用固定机构