[发明专利]文本处理方法、装置、计算机设备及存储介质在审
申请号: | 202111081005.8 | 申请日: | 2021-09-15 |
公开(公告)号: | CN114281933A | 公开(公告)日: | 2022-04-05 |
发明(设计)人: | 欧子菁;赵瑞辉 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F40/126;G06F40/194;G06F40/30;G06N3/04;G06N3/08;G06N20/00 |
代理公司: | 北京三高永信知识产权代理有限责任公司 11138 | 代理人: | 孙晓丽 |
地址: | 518057 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 处理 方法 装置 计算机 设备 存储 介质 | ||
本申请实施例公开了一种文本处理方法、装置、计算机设备及存储介质,属于计算机技术领域。该方法包括:获取第一文本中每个词语对应的第一特征和第一文本对应的第二特征;调用特征编码模型,分别对每个第一特征和第二特征进行编码,得到每个第一特征对应的第一编码特征和第二特征对应的第二编码特征;基于每个第一编码特征与第二编码特征之间的第一关联特征,训练特征编码模型;调用训练后的特征编码模型,对任一文本的特征进行编码。本申请实施例提供的方法,基于每个第一编码特征与第二编码特征之间的关联特征,来训练特征编码模型,能够提高特征编码模型的准确度,从而提高该特征编码模型所得到的编码特征的准确度。
技术领域
本申请实施例涉及计算机技术领域,特别涉及一种文本处理方法、装置、计算机设备及存储介质。
背景技术
文本是机器学习和自然语言处理中的重要对象,文本的编码特征能够广泛应用在文本识别、文本搜索等多种领域中,具有重要的研究意义。
相关技术中,获取文本的词频特征,该词频特征表示文本中每个词语的出现次数,通过对该词频特征进行编码,得到该文本对应的编码特征。但是,这种方法仅是考虑了文本中每个词语的出现次数,得到的编码特征不够准确。
发明内容
本申请实施例提供了一种文本处理方法、装置、计算机设备及存储介质,能够提高编码特征的准确性。所述技术方案如下:
一方面,提供了一种文本处理方法,所述方法包括:
获取第一文本中每个词语对应的第一特征和所述第一文本对应的第二特征,其中,所述词语对应的第一特征表示在所述第一文本中所述词语的语义,所述第二特征是基于每个所述词语对应的第一特征确定的;
调用特征编码模型,分别对每个所述第一特征和所述第二特征进行编码,得到每个所述第一特征对应的第一编码特征和所述第二特征对应的第二编码特征;
基于每个所述第一编码特征与所述第二编码特征之间的第一关联特征,训练所述特征编码模型,所述第一关联特征表示所述第一编码特征与所述第二编码特征之间的关联程度;
调用训练后的特征编码模型,对任一文本的特征进行编码。
另一方面,提供了一种文本处理装置,所述装置包括:
特征获取模块,用于获取第一文本中每个词语对应的第一特征和所述第一文本对应的第二特征,其中,所述词语对应的第一特征表示在所述第一文本中所述词语的语义,所述第二特征是基于每个所述词语对应的第一特征确定的;
第一编码模块,用于调用特征编码模型,分别对每个所述第一特征和所述第二特征进行编码,得到每个所述第一特征对应的第一编码特征和所述第二特征对应的第二编码特征;
模型训练模块,用于基于每个所述第一编码特征与所述第二编码特征之间的第一关联特征,训练所述特征编码模型,所述第一关联特征表示所述第一编码特征与所述第二编码特征之间的关联程度;
第二编码模块,用于调用训练后的特征编码模型,对任一文本的特征进行编码。
可选地,所述模型训练模块,包括:
损失值确定单元,用于基于每个所述第一编码特征对应的第一关联特征,确定损失值,所述损失值与所述第一关联特征负相关;
模型训练单元,用于基于所述损失值,训练所述特征编码模型。
可选地,所述装置还包括关联确定模块,用于:
调用判别模型,对所述第一编码特征和所述第二编码特征进行判别,得到判别结果,所述判别结果表示所述第一编码特征对应的词语属于所述第二编码特征对应的文本的可能性;
将所述判别结果确定为所述第一编码特征对应的第一关联特征。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111081005.8/2.html,转载请声明来源钻瓜专利网。