[发明专利]文本处理方法、装置、计算机设备及存储介质在审
申请号: | 202111081005.8 | 申请日: | 2021-09-15 |
公开(公告)号: | CN114281933A | 公开(公告)日: | 2022-04-05 |
发明(设计)人: | 欧子菁;赵瑞辉 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F40/126;G06F40/194;G06F40/30;G06N3/04;G06N3/08;G06N20/00 |
代理公司: | 北京三高永信知识产权代理有限责任公司 11138 | 代理人: | 孙晓丽 |
地址: | 518057 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 处理 方法 装置 计算机 设备 存储 介质 | ||
1.一种文本处理方法,其特征在于,所述方法包括:
获取第一文本中每个词语对应的第一特征和所述第一文本对应的第二特征,其中,所述词语对应的第一特征表示在所述第一文本中所述词语的语义,所述第二特征是基于每个所述词语对应的第一特征确定的;
调用特征编码模型,分别对每个所述第一特征和所述第二特征进行编码,得到每个所述第一特征对应的第一编码特征和所述第二特征对应的第二编码特征;
基于每个所述第一编码特征与所述第二编码特征之间的第一关联特征,训练所述特征编码模型,所述第一关联特征表示所述第一编码特征与所述第二编码特征之间的关联程度;
调用训练后的特征编码模型,对任一文本的特征进行编码。
2.根据权利要求1所述的方法,其特征在于,所述基于每个所述第一编码特征与所述第二编码特征之间的第一关联特征,训练所述特征编码模型,包括:
基于每个所述第一编码特征对应的第一关联特征,确定损失值,所述损失值与所述第一关联特征负相关;
基于所述损失值,训练所述特征编码模型。
3.根据权利要求1所述的方法,其特征在于,所述基于每个所述第一编码特征与所述第二编码特征之间的第一关联特征,训练所述特征编码模型之前,所述方法还包括:
调用判别模型,对所述第一编码特征和所述第二编码特征进行判别,得到判别结果,所述判别结果表示所述第一编码特征对应的词语属于所述第二编码特征对应的文本的可能性;
将所述判别结果确定为所述第一编码特征对应的第一关联特征。
4.根据权利要求3所述的方法,其特征在于,所述基于每个所述第一编码特征与所述第二编码特征之间的第一关联特征,训练所述特征编码模型,包括:
基于每个所述第一编码特征对应的第一关联特征,确定损失值,所述损失值与所述第一关联特征负相关;
基于所述损失值,训练所述特征编码模型和所述判别模型。
5.根据权利要求2所述的方法,其特征在于,所述方法还包括:
获取第二文本中的词语对应的第三特征,所述词语对应的第三特征表示在所述第二文本中所述词语的语义,所述第二文本与所述第一文本不同;
调用所述特征编码模型,对所述第三特征进行编码,得到所述第三特征对应的第三编码特征;
确定所述第三编码特征与所述第二编码特征之间的第二关联特征,所述第二关联特征表示所述第三编码特征与所述第二编码特征之间的关联程度;
所述基于每个所述第一编码特征对应的第一关联特征,确定损失值,包括:
基于每个所述第一关联特征和所述第二关联特征,确定所述损失值,所述损失值与所述第一关联特征负相关,所述损失值与所述第二关联特征正相关。
6.根据权利要求5所述的方法,其特征在于,所述第一文本包括位于多个位置的词语,所述基于每个所述第一关联特征和所述第二关联特征,确定所述损失值,包括:
分别基于每个所述位置对应的第一关联特征和第二关联特征,确定每个所述位置对应的损失分量,所述损失分量与所述第一关联特征正相关,所述损失分量与所述第二关联特征负相关,其中,所述位置对应的第一关联特征是指所述第一文本中位于所述位置的词语对应的第一关联特征,所述位置对应的第二关联特征是指所述第二文本中位于所述位置的词语对应的第二关联特征;
将每个所述位置对应的损失分量进行融合处理,得到所述损失值,所述损失值与所述损失分量负相关。
7.根据权利要求2所述的方法,其特征在于,所述方法还包括:
确定所述第一文本对应的第一文本特征,所述第一文本特征表示所述第一文本的语义;
调用所述特征编码模型,对所述第一文本特征进行编码,得到第四编码特征;
确定所述第四编码特征与所述第二编码特征之间的第三关联特征,所述第三关联特征表示所述第四编码特征与所述第二编码特征之间的关联程度;
所述基于每个所述第一编码特征对应的第一关联特征,确定损失值,包括:
基于每个所述第一关联特征和所述第三关联特征,确定所述损失值,所述损失值与所述第一关联特征和所述第三关联特征负相关。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111081005.8/1.html,转载请声明来源钻瓜专利网。