[发明专利]用于处理文本的方法、装置、电子设备和介质在审
申请号: | 202210443532.7 | 申请日: | 2022-04-25 |
公开(公告)号: | CN114764565A | 公开(公告)日: | 2022-07-19 |
发明(设计)人: | 吴跃 | 申请(专利权)人: | 京东科技控股股份有限公司 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F16/35;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 北京英赛嘉华知识产权代理有限责任公司 11204 | 代理人: | 王达佐;马晓亚 |
地址: | 100176 北京市大兴区经济*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 处理 文本 方法 装置 电子设备 介质 | ||
本公开的实施例公开了用于处理文本的方法、装置、电子设备和介质。该方法的一具体实施方式包括:获取待处理文本;将该待处理文本输入预设的文本向量提取模型,生成与该待处理文本对应的隐向量,其中,该预设的文本向量提取模型中包括预训练文本编码模型和预先训练的编码器;基于该隐向量对该待处理文本进行处理,生成处理结果。该实施方式实现了在减少有监督训练所需标注样本的基础上提高文本向量的表征效果,进而提高应用文本向量的文本处理任务的质量。
技术领域
本公开的实施例涉及计算机技术领域,具体涉及用于处理文本的方法、装置、电子设备和介质。
背景技术
随着文本处理技术的发展,各种文本编码的方案也不断被提出。现有技术主要包括:(1)经典方案,如编辑距离、jaccard相似度、最长公共子序列等;(2)基于深度学习的方案,如无监督的word2vec、glove,以及有监督的BERT、sentence-BERT等。
现有技术中,采用有监督学习的模型往往能够取得比无监督学习的模型更好的效果。然而有监督学习通常需要大量的标注数据来做训练,标注数据的获得往往需要较高的成本,甚至在某些场景下很难获得优质的标注数据。因而,如何降低标注成本且取得较好的文本编码效果成为需要解决的问题。
发明内容
本公开的实施例提出了用于处理文本的方法、装置、电子设备和介质。
第一方面,本公开的实施例提供了一种用于处理文本的方法,该方法包括:获取待处理文本;将待处理文本输入预设的文本向量提取模型,生成与待处理文本对应的隐向量,其中,预设的文本向量提取模型中包括预训练文本编码模型和预先训练的编码器;基于隐向量对待处理文本进行处理,生成处理结果。
在一些实施例中,上述将待处理文本输入预设的文本向量提取模型,生成与待处理文本对应的隐向量,包括:将待处理文本输入至预训练文本编码模型,生成与待处理文本对应的初始文本向量;将初始文本向量输入至预先训练的编码器,生成与初始文本向量对应的隐向量。
在一些实施例中,上述预先训练的编码器包括自编码器的编码部分,上述自编码器通过以下步骤训练得到:获取样本文本向量集合;将样本文本向量集合中的样本文本向量输入至初始自编码器的编码部分,生成样本隐向量;将样本隐向量输入至初始自编码器的解码部分,生成解码向量;基于解码向量与对应的样本文本向量之间的差异,调整初始自编码器的参数;将满足训练结束条件的参数调整后的初始自编码器确定为预先训练的自编码器。
在一些实施例中,上述获取样本文本向量集合,包括:获取与待处理文本相关联的文本集合作为关联文本集合;将关联文本集合中的文本输入至预训练文本编码模型,生成与输入的各文本对应的文本预编码向量;将输入的各文本对应的文本预编码向量所形成的集合确定为样本文本向量集合。
在一些实施例中,上述待处理文本包括第一文本和第二文本;以及上述基于隐向量对待处理文本进行处理,生成处理结果,包括:生成用于表征第一文本与第二文本之间的相似度的处理结果,其中,处理结果包括第一文本和第二文本分别对应的隐向量之间的相似度。
在一些实施例中,上述第一文本和第二文本分别包括待匹配文本和与待匹配文本对应的候选文本集合中的候选文本;以及该方法还包括:根据所生成的待匹配文本与候选文本集合中的候选文本之间的相似度从候选文本集合中选取目标数目个候选文本;将所选取的目标数目个候选文本发送至目标终端。
在一些实施例中,上述基于隐向量对待处理文本进行处理,生成处理结果,包括:将隐向量输入至预先训练的分类器,生成待处理文本对应的文本类别作为处理结果。
第二方面,本公开的实施例提供了一种用于处理文本的装置,该装置包括:获取单元,被配置成获取待处理文本;生成单元,被配置成将待处理文本输入预设的文本向量提取模型,生成与待处理文本对应的隐向量,其中,预设的文本向量提取模型中包括预训练文本编码模型和预先训练的编码器;处理单元,被配置成基于隐向量对待处理文本进行处理,生成处理结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于京东科技控股股份有限公司,未经京东科技控股股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210443532.7/2.html,转载请声明来源钻瓜专利网。