[发明专利]一种文本处理方法、装置、计算机设备及存储介质在审
申请号: | 202210790159.2 | 申请日: | 2022-07-06 |
公开(公告)号: | CN115062626A | 公开(公告)日: | 2022-09-16 |
发明(设计)人: | 程亚峰 | 申请(专利权)人: | 抖音视界(北京)有限公司 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F40/216;G06F40/284;G06K9/62 |
代理公司: | 北京中知法苑知识产权代理有限公司 11226 | 代理人: | 李明 |
地址: | 100041 北京市石景山区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 处理 方法 装置 计算机 设备 存储 介质 | ||
1.一种文本处理方法,其特征在于,包括:
获取第一文本中的第一关键词对应的第一词向量矩阵、和第二文本中的第二关键词对应的第二词向量矩阵;其中,所述词向量矩阵包括:多个关键词分别对应的词向量;每个所述词向量包括:多个向量维度分别对应的向量元素;
将所述第一词向量矩阵和所述第二词向量矩阵进行融合处理,得到融合矩阵,并对所述融合矩阵进行奇异值分解,得到奇异值矩阵;
基于所述奇异值矩阵确定所述第一文本和所述第二文本分别在多个所述向量维度下的相关度。
2.根据权利要求1所述的方法,其特征在于,在对所述融合矩阵进行奇异值分解时,还得到第一目标分解矩阵、第二目标分解矩阵;所述第一目标分解矩阵用于表征所述第一文本的语义在多个所述向量维度下分别对应的权重;所述第二目标分解矩阵用于表征所述第二文本的语义在多个所述向量维度下分别对应的权重;
所述方法还包括:
基于所述第一词向量矩阵和所述第一目标分解矩阵,确定所述第一文本分别在多个所述向量维度下的第一语义关键词,以及,基于所述第一词向量矩阵和所述第二目标分解矩阵,确定所述第二文本分别在多个所述向量维度下的第二语义关键词。
3.根据权利要求2所述的方法,其特征在于,所述基于所述第一词向量矩阵和所述第一目标分解矩阵,确定所述第一文本分别在多个所述向量维度下的第一语义关键词,包括:
基于所述第一词向量矩阵和所述第一目标分解矩阵,确定所述第一词向量矩阵对应的词向量压缩矩阵;
基于所述词向量压缩矩阵中的各个词向量以及多个候选词汇分别对应的词向量,确定各个所述词向量对应的第一语义关键词。
4.根据权利要求3所述的方法,其特征在于,所述基于所述第一词向量矩阵和所述第一目标分解矩阵,确定所述第一词向量矩阵对应的词向量压缩矩阵,包括:
按照预设数量个奇异值对所述第一目标分解矩阵进行压缩,得到所述第一目标分解矩阵对应的压缩分解矩阵;其中,所述奇异值为所述奇异值矩阵中与目标向量维度对应的矩阵元素的值;
基于所述压缩分解矩阵和所述第一词向量矩阵,确定所述第一词向量矩阵对应的词向量压缩矩阵。
5.根据权利要求1所述的方法,其特征在于,所述获取文本中的关键词对应的词向量矩阵,包括:
对所述文本进行切词处理,得到所述文本中包含的初始词;
按照预设的筛选规则对所述初始词进行筛选处理,得到所述关键词;
基于各个所述关键词分别在所述文本中出现的次数、以及各个所述关键词对应的词向量,构建所述文本对应的词向量矩阵;
其中,所述文本包括第一文本、所述关键词包括第一关键词,所述词向量矩阵包括所述第一词向量矩阵;
或者,
所述文本包括第二文本、所述关键词包括第二关键词,所述词向量矩阵包括所述第二词向量矩阵。
6.根据权利要求5所述的方法,其特征在于,所述基于各个所述关键词分别在所述文本中出现的次数、以及各个所述关键词对应的词向量,构建所述文本对应的词向量矩阵,包括:
将所述关键词在所述文本中出现的总次数作为所述词向量矩阵的行数、以及将所述向量维度的数量作为所述词向量矩阵的列数,对所述关键词分别对应的词向量进行拼接处理,得到所述词向量矩阵;
其中,任一关键词对应的词向量在所述词向量矩阵中出现的次数、与其在所述文本中出现的次数相同。
7.根据权利要求1所述的方法,其特征在于,所述将所述第一词向量矩阵和所述第二次词向量矩阵进行融合处理,得到融合矩阵,包括:
将所述第一词向量矩阵和所述第二词向量矩阵进行矩阵乘处理,得到所述融合矩阵。
8.根据权利要求1-7任一项所述的方法,其特征在于,所述方法还包括:
在所述第一文本属于目标用户的感兴趣文本、且所述第二文本与所述第一文本在多个所述向量维度下分别对应的相关度符合预设条件的情况下,将所述第二文本作为所述目标用户的感兴趣文本。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于抖音视界(北京)有限公司,未经抖音视界(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210790159.2/1.html,转载请声明来源钻瓜专利网。