[发明专利]一种热词挖掘方法、装置、设备及存储介质在审
申请号: | 202111192582.4 | 申请日: | 2021-10-13 |
公开(公告)号: | CN113836257A | 公开(公告)日: | 2021-12-24 |
发明(设计)人: | 李锐;丁克玉;刘权;陈志刚 | 申请(专利权)人: | 科大讯飞股份有限公司 |
主分类号: | G06F16/31 | 分类号: | G06F16/31;G06F16/33;G06F40/284 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 付丽 |
地址: | 230088 安徽*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 挖掘 方法 装置 设备 存储 介质 | ||
本申请提供了一种热词挖掘方法、装置、设备及存储介质,方法包括:获取目标文本中标题的表达向量,其中,目标文本包含所述标题和所述标题对应的正文;利用标题的信息确定正文中每个词对于正文表达的贡献度,并根据正文中每个词对于正文表达的贡献度确定正文的表达向量;根据标题的表达向量和正文的表达向量生成热词。本申请提供的热词挖掘方法能够及时挖掘出热词,且不涉及安全性和隐私性问题。
技术领域
本申请涉及自然语言处理技术领域,尤其涉及一种热词挖掘方法、装置、设备及存储介质。
背景技术
热词是指在某段时间内使用频率较高的词语,往往具有时代特征,反映一个时期的热点话题,热词通常与社会事件或现象联系紧密,成为民意表达与舆论监督的工具,如何获取热词已成为一个具有挑战性的课题。为了获取热词,热词发现技术应运而生,热词发现技术可应用于中文分词、中文信息检索、输入法、舆情分析等诸多任务中。
目前的热词发现方案为,收集用户大量的使用纪录,通过统计用户对于词条的使用次数,确定词条是否为热词。由于目前的热词发现方案需要收集用户大量的使用纪录,因此,其安全性和隐私性值得商榷,另外,现有的热词发现方案无法及时发现热词。
发明内容
有鉴于此,本申请提供了一种热词挖掘方法、装置、设备及存储介质,用以解决现有的热词发现方案存在安全性和隐私性问题,以及无法及时发现热词的问题,其技术方案如下:
一种热词挖掘方法,包括:
获取目标文本中标题的表达向量,其中,所述目标文本包含所述标题和所述标题对应的正文;
利用所述标题的信息确定所述正文中每个词对于正文表达的贡献度,并根据所述正文中每个词对于正文表达的贡献度确定所述正文的表达向量;
根据所述标题的表达向量和所述正文的表达向量生成热词。
可选的,所述获取目标文本中标题的表达向量,包括:
获取所述标题的分词结果;
针对所述标题的分词结果中的每个词,获取该词的词向量以及该词中每个字的字向量,并根据该词的词向量以及该词中每个字的字向量确定能够表征该词的词级别语义信息和字级别语义信息的字词结合向量;
根据所述标题的分词结果中各个词的字词结合向量,确定所述标题的表达向量。
可选的,所述获取所述标题的分词结果,包括:
采用多种不同的分词方式对所述标题进行分词处理,以得到所述标题的多种分词结果;
根据所述标题的多种分词结果中的交集部分,对所述标题进行分词,得到的分词结果作为所述标题的最终分词结果。
可选的,所述根据该词的词向量以及该词中每个字的字向量确定能够表征该词的词级别语义信息和字级别语义信息的字词结合向量,包括:
确定该词中各个字的字向量的平均值,以得到该词的平均字向量;
将该词的词向量与该词的平均字向量融合,融合后向量作为该词的字词结合向量。
可选的,所述利用所述标题的信息确定所述正文中每个词对于正文表达的贡献度,并根据所述正文中每个词对于正文表达的贡献度确定所述正文的表达向量,包括:
获取所述正文的分词结果,并确定所述正文的分词结果中每个词的字词结合向量,其中,一个词的字词结合向量能够表征该词的词级别语义信息和字级别语义信息;
利用所述标题的表达向量、所述标题的分词结果中每个词在所述正文中的位置信息以及所述正文的分词结果中每个词的字词结合向量,确定所述正文的分词结果中每个词对于正文表达的贡献度;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于科大讯飞股份有限公司,未经科大讯飞股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111192582.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种光学镜片加工用高效率磨削装置
- 下一篇:一种果树栽培灌溉装置