[发明专利]文本处理方法、装置、计算机设备及存储介质在审

申请号：	202111081005.8	申请日：	2021-09-15
公开（公告）号：	CN114281933A	公开（公告）日：	2022-04-05
发明（设计）人：	欧子菁;赵瑞辉	申请（专利权）人：	腾讯科技（深圳）有限公司
主分类号：	G06F16/33	分类号：	G06F16/33;G06F40/126;G06F40/194;G06F40/30;G06N3/04;G06N3/08;G06N20/00
代理公司：	北京三高永信知识产权代理有限责任公司 11138	代理人：	孙晓丽
地址：	518057 广东省深圳***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	文本处理方法装置计算机设备存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请实施例公开了一种文本处理方法、装置、计算机设备及存储介质，属于计算机技术领域。该方法包括：获取第一文本中每个词语对应的第一特征和第一文本对应的第二特征；调用特征编码模型，分别对每个第一特征和第二特征进行编码，得到每个第一特征对应的第一编码特征和第二特征对应的第二编码特征；基于每个第一编码特征与第二编码特征之间的第一关联特征，训练特征编码模型；调用训练后的特征编码模型，对任一文本的特征进行编码。本申请实施例提供的方法，基于每个第一编码特征与第二编码特征之间的关联特征，来训练特征编码模型，能够提高特征编码模型的准确度，从而提高该特征编码模型所得到的编码特征的准确度。

技术领域

本申请实施例涉及计算机技术领域，特别涉及一种文本处理方法、装置、计算机设备及存储介质。

背景技术

文本是机器学习和自然语言处理中的重要对象，文本的编码特征能够广泛应用在文本识别、文本搜索等多种领域中，具有重要的研究意义。

相关技术中，获取文本的词频特征，该词频特征表示文本中每个词语的出现次数，通过对该词频特征进行编码，得到该文本对应的编码特征。但是，这种方法仅是考虑了文本中每个词语的出现次数，得到的编码特征不够准确。

发明内容

本申请实施例提供了一种文本处理方法、装置、计算机设备及存储介质，能够提高编码特征的准确性。所述技术方案如下：

一方面，提供了一种文本处理方法，所述方法包括：

获取第一文本中每个词语对应的第一特征和所述第一文本对应的第二特征，其中，所述词语对应的第一特征表示在所述第一文本中所述词语的语义，所述第二特征是基于每个所述词语对应的第一特征确定的；

调用特征编码模型，分别对每个所述第一特征和所述第二特征进行编码，得到每个所述第一特征对应的第一编码特征和所述第二特征对应的第二编码特征；

基于每个所述第一编码特征与所述第二编码特征之间的第一关联特征，训练所述特征编码模型，所述第一关联特征表示所述第一编码特征与所述第二编码特征之间的关联程度；

调用训练后的特征编码模型，对任一文本的特征进行编码。