[发明专利]用于文本处理的方法、装置、设备和存储介质在审
申请号: | 202210773089.X | 申请日: | 2022-06-30 |
公开(公告)号: | CN115114933A | 公开(公告)日: | 2022-09-27 |
发明(设计)人: | 章峻珲;鲍吴迪;马泽君 | 申请(专利权)人: | 北京有竹居网络技术有限公司 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F40/151;G06F40/289;G06N20/00;G06N3/04;G06N3/08 |
代理公司: | 北京世辉律师事务所 16093 | 代理人: | 马明月 |
地址: | 101299 北京市平*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 文本 处理 方法 装置 设备 存储 介质 | ||
1.一种文本处理的方法,包括:
基于第一语言的原文本中的多个文本单元生成多个第一特征表示,所述多个第一特征表示指示相应文本单元的语义;
将所述多个第一特征表示与第二特征表示结合以形成特征表示序列,所述第二特征表示指示所述多个文本单元中的各个文本单元是否为文本单元组的边界;以及
基于所述特征表示序列,生成第二语言的转换文本。
2.根据权利要求1所述的方法,其中基于所述多个文本单元生成所述多个第一特征表示包括:
获取所述多个文本单元各自的向量表示;
将所述向量表示分成多个向量表示组;以及
针对所述多个向量表示组中的一个向量表示组,
确定所述向量表示组中的各向量表示的注意力权重,以及
利用所确定的注意力权重对所述各向量表示进行加权,以确定所述各向量表示的所述第一特征表示。
3.根据权利要求1所述的方法,其中所述原文本和所述转换文本中都包括与至少一个预定字符或字符串相对应的至少一个预定标记,并且所述方法还包括:
将所述转换文本中的所述至少一个预定标记恢复为所述至少一个预定字符或字符串。
4.根据权利要求1所述的方法,其中所述方法是使用非自回归机器学习模型实现的。
5.一种文本处理的方法,包括:
获取训练文本对,所述训练文本对包括第一语言的原文本和第二语言的目标文本;
利用转换模型,将所述原文本转换为所述第二语言的转换文本,包括:
基于所述原文本中的多个文本单元生成多个第一特征表示,所述多个第一特征表示指示相应文本单元的语义,
将所述多个第一特征表示与第二特征表示结合形成特征表示序列,所述第二特征表示指示所述多个文本单元中的各个文本单元是否为文本单元组的边界,以及
基于所述特征表示序列,生成所述转换文本;以及
至少基于所述转换文本与所述目标文本之间的差异,来训练所述转换模型。
6.根据权利要求5所述的方法,其中训练所述转换模型还包括:
确定与所述原文本和所述目标文本相关联的目标对齐信息;以及
进一步基于所述转换文本和所述原文本之间的预测对齐信息与所述目标对齐信息之间的对齐损失,来训练所述转换模型。
7.根据权利要求5所述的方法,其中获取所述训练文本对包括:
利用自回归模型,将所述第一语言的多个原文本转换成相应的所述第二语言的多个目标文本;
基于所述多个原文本和所述多个目标文本生成训练数据集;以及
从所述训练数据集中获取所述训练文本对。
8.根据权利要求5所述的方法,其中获取所述训练文本对包括:
将训练数据集中的原文本和目标文本中的多个预定字符或字符串替换为相应的多个预定标记,以生成更新后的训练数据集;以及
从所述更新后的训练数据集中获取所述训练文本对。
9.根据权利要求5所述的方法,其中基于所述多个文本单元生成所述多个第一特征表示包括:
获取所述多个文本单元相应的多个向量表示;
将所述多个向量表示分成多个向量表示组;以及
针对所述多个向量表示组中的一个向量表示组,
确定所述向量表示组中的各向量表示的注意力权重,以及
利用所确定的注意力权重对所述各向量表示进行加权,以确定所述各向量表示的所述第一特征表示。
10.根据权利要求5所述的方法,其中所述转换模型是非自回归机器学习模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京有竹居网络技术有限公司,未经北京有竹居网络技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210773089.X/1.html,转载请声明来源钻瓜专利网。