[发明专利]用于处理文本的方法、装置、电子设备和介质在审
申请号: | 202210443532.7 | 申请日: | 2022-04-25 |
公开(公告)号: | CN114764565A | 公开(公告)日: | 2022-07-19 |
发明(设计)人: | 吴跃 | 申请(专利权)人: | 京东科技控股股份有限公司 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F16/35;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 北京英赛嘉华知识产权代理有限责任公司 11204 | 代理人: | 王达佐;马晓亚 |
地址: | 100176 北京市大兴区经济*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 处理 文本 方法 装置 电子设备 介质 | ||
1.一种用于处理文本的方法,包括:
获取待处理文本;
将所述待处理文本输入预设的文本向量提取模型,生成与所述待处理文本对应的隐向量,其中,所述预设的文本向量提取模型中包括预训练文本编码模型和预先训练的编码器;
基于所述隐向量对所述待处理文本进行处理,生成处理结果。
2.根据权利要求1所述的方法,其中,所述将所述待处理文本输入预设的文本向量提取模型,生成与所述待处理文本对应的隐向量,包括:
将所述待处理文本输入至所述预训练文本编码模型,生成与所述待处理文本对应的初始文本向量;
将所述初始文本向量输入至所述预先训练的编码器,生成与所述初始文本向量对应的隐向量。
3.根据权利要求1所述的方法,其中,所述预先训练的编码器包括自编码器的编码部分,所述自编码器通过以下步骤训练得到:
获取样本文本向量集合;
将所述样本文本向量集合中的样本文本向量输入至初始自编码器的编码部分,生成样本隐向量;
将所述样本隐向量输入至所述初始自编码器的解码部分,生成解码向量;
基于所述解码向量与对应的样本文本向量之间的差异,调整所述初始自编码器的参数;
将满足训练结束条件的参数调整后的初始自编码器确定为所述预先训练的自编码器。
4.根据权利要求3所述的方法,其中,所述获取样本文本向量集合,包括:
获取与所述待处理文本相关联的文本集合作为关联文本集合;
将所述关联文本集合中的文本输入至所述预训练文本编码模型,生成与输入的各文本对应的文本预编码向量;
将所述输入的各文本对应的文本预编码向量所形成的集合确定为所述样本文本向量集合。
5.根据权利要求1-4之一所述的方法,其中,所述待处理文本包括第一文本和第二文本;以及
所述基于所述隐向量对所述待处理文本进行处理,生成处理结果,包括:
生成用于表征所述第一文本与所述第二文本之间的相似度的处理结果,其中,所述处理结果包括所述第一文本和第二文本分别对应的隐向量之间的相似度。
6.根据权利要求5所述的方法,其中,所述第一文本和所述第二文本分别包括待匹配文本和与所述待匹配文本对应的候选文本集合中的候选文本;以及
所述方法还包括:
根据所生成的所述待匹配文本与所述候选文本集合中的候选文本之间的相似度从所述候选文本集合中选取目标数目个候选文本;
将所选取的目标数目个候选文本发送至目标终端。
7.根据权利要求1-4之一所述的方法,其中,所述基于所述隐向量对所述待处理文本进行处理,生成处理结果,包括:
将所述隐向量输入至预先训练的分类器,生成所述待处理文本对应的文本类别作为处理结果。
8.一种用于处理文本的装置,包括:
获取单元,被配置成获取待处理文本;
生成单元,被配置成将所述待处理文本输入预设的文本向量提取模型,生成与所述待处理文本对应的隐向量,其中,所述预设的文本向量提取模型中包括预训练文本编码模型和预先训练的编码器;
处理单元,被配置成基于所述隐向量对所述待处理文本进行处理,生成处理结果。
9.一种电子设备,包括:
一个或多个处理器;
存储装置,其上存储有一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-7中任一所述的方法。
10.一种计算机可读介质,其上存储有计算机程序,其中,该程序被处理器执行时实现如权利要求1-7中任一所述的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于京东科技控股股份有限公司,未经京东科技控股股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210443532.7/1.html,转载请声明来源钻瓜专利网。