[发明专利]文本标签挖掘方法、装置、设备及存储介质在审
申请号: | 202011203145.3 | 申请日: | 2020-11-02 |
公开(公告)号: | CN112328655A | 公开(公告)日: | 2021-02-05 |
发明(设计)人: | 郑勇升 | 申请(专利权)人: | 中国平安人寿保险股份有限公司 |
主分类号: | G06F16/2458 | 分类号: | G06F16/2458;G06F40/289;G06F40/30;G06N3/04;G06N3/08 |
代理公司: | 深圳中一联合知识产权代理有限公司 44414 | 代理人: | 李木燕 |
地址: | 518000 广东省深圳市福田*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 标签 挖掘 方法 装置 设备 存储 介质 | ||
本申请适用于自然语言处理、机器学习技术领域,提供一种文本标签挖掘方法、装置、设备及存储介质,其方法包括:接收待挖掘文本并获取与待挖掘文本对应的文本关键词;对待挖掘文本及其对应的文本关键词进行向量匹配处理,以获取待挖掘文本的文本向量以及文本关键词的词向量;根据待挖掘文本的文本向量以及文本关键词的词向量计算出文本关键词与待挖掘文本之间的相似度值,并根据相似度值确定文本关键词是否被设定为是待挖掘文本的文本标签。上述方法通过文本向量与词向量匹配的方式来确定的文本标签,可以准确地表达文本的主题,解决传统的文本标签生成方法中不能准确表达文章主题的问题,还可以帮助用户对文档内容进行正确的归类和理解。
技术领域
本申请涉及自然语言处理、机器学习技术领域,尤其涉及一种文本标签挖掘方法、装置、设备及存储介质。
背景技术
随着互联网技术的发展,网络上的信息量与日俱增,各类信息充斥于互联网,而每个人感兴趣的信息只是其中的一小部分,如何帮助用户查找到其感兴趣的信息变得越来越难。目前无论是网络文本还是纸版文本中,通常会采用一些文本标签来代表文本内容,比如阅读新闻、论文时所看到的关键字标签。现有技术中传统文本标签生成方式通常是按照预先设定好的关键词提取规则从标签库中进行匹配获得,虽然此种方式限定了关键词会落入标签库中,但是这种方式挖掘得到的文本标签也难以准确地表达文本的主题,使得用户难以对文档内容进行正确的归类和理解。
发明内容
有鉴于此,本申请实施例提供了一种文本标签挖掘方法、装置、设备及存储介质,可以通过向量匹配的方式准确地表达文本的主题,解决了传统文本标签生成不能准确表达文章主题的问题,也可以帮助用户对文档内容进行正确的归类和理解。
本申请实施例的第一方面提供了一种文本标签挖掘方法,包括:
接收待挖掘文本并获取与所述待挖掘文本对应的文本关键词;
对所述待挖掘文本及其对应的文本关键词进行向量匹配处理,以获取所述待挖掘文本的文本向量以及所述文本关键词的词向量;
根据所述待挖掘文本的文本向量以及所述文本关键词的词向量计算出所述文本关键词与所述待挖掘文本之间的相似度值,并根据所述相似度值确定所述文本关键词是否被设定为是所述待挖掘文本的文本标签。
结合第一方面,在第一方面的第一种可能实现方式中,所述文本标签挖掘方法基于采用深度学习算法进行模型训练获得的挖掘模型实现,其中,所述挖掘模型中包括有用于获取文本向量的第一向量匹配模型以及用于获取词向量的第二向量匹配模型;所述对所述待挖掘文本及其对应的文本关键词进行向量匹配处理,以获取所述待挖掘文本的文本向量以及所述文本关键词的词向量的步骤之前,包括:
采用训练样本文本训练卷积神经网络获得所述第一向量匹配模型;以及
对词库中的关键词进行向量表达获得所述第二向量匹配模型,其中,所述词库通过对基于训练样本文本获得的用于表示训练样本文本主题的关键词进行统一存储生成。
结合第一方面的第一种可能实现方式,在第一方面的第二种可能实现方式中,所述采用训练样本文本训练卷积神经网络获得所述第一向量匹配模型的步骤,包括:
获取训练样本文本;
将所述训练样本文本按照字段转化为对应的字符向量;
将所述字符向量输入到卷积神经网络的嵌入层进行映射处理,生成与所述字符向量对应的向量矩阵;
将所述向量矩阵输入到卷积神经网络卷积层及池化层分别进行卷积处理和池化处理,获取表征所述训练样本文本的距离数值;
结合卷积神经网络的卷积核数量,通过卷积神经网络的全连接层对所述表征训练样本文本的距离数值进行向量转化处理,以训练获得用于获取文本向量所述第一向量匹配模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国平安人寿保险股份有限公司,未经中国平安人寿保险股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011203145.3/2.html,转载请声明来源钻瓜专利网。