[发明专利]一种同义文本生成的方法及装置在审
申请号: | 201911337552.0 | 申请日: | 2019-12-23 |
公开(公告)号: | CN111126047A | 公开(公告)日: | 2020-05-08 |
发明(设计)人: | 佘萧寒;邱雪涛;万四爽;王宇 | 申请(专利权)人: | 中国银联股份有限公司 |
主分类号: | G06F40/247 | 分类号: | G06F40/247;G06F40/126 |
代理公司: | 北京同达信恒知识产权代理有限公司 11291 | 代理人: | 邹雅莹 |
地址: | 200135 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 同义 文本 生成 方法 装置 | ||
本发明公开了一种同义文本生成的方法及装置,其中,方法包括:将第一类型的第一文本输入至第一子模型,得到与第一文本同义的第二类型的第二文本;将第二文本输入至第二子模型,得到与第二文本同义的第一类型的第三文本;根据第三文本和第一文本的差异,更新由第一子模型和第二子模型组成的文本生成模型;文本生成模型用于根据输入文本生成与输入文本同义的输出文本。上述技术方案解决现有技术中有监督模型训练中需要对大量文本进行关联和标注,浪费大量人力的问题。
技术领域
本发明实施例涉及机器学习领域,尤其涉及一种同义文本生成的方法及装置。
背景技术
同义文本生成,即同义复写,是机器翻译领域下的子任务之一,同义文本生成广泛应用于自然语言处理的语义分析与理解等场景。同义文本生成一般针对于同一种语言,在不改变原句主体语义的情况下完成语句的改写,诸如自动文摘、拼写纠错等任务均可归类于同义文本生成的范畴下。
现有技术有关同义文本生成的方法主要集中于有监督学习方法,有监督学习方法需要大规模有标注的语料支持,比如,在将全称文本—简称文本相互转换的模型训练中,需要将具有相同意思的全称文本和简称文本进行关联,且将每个文本标识出其属于全称类别还是简称类别,进而将有关联关系且进行标注的文本作为训练样本进行有监督模型训练。该方式中,需要人工对大量文本进行关联和标注,浪费大量人力。
发明内容
本发明实施例提供一种同义文本生成的方法及装置,用以解决现有技术中有监督模型训练中需要对大量文本进行关联和标注,浪费大量人力的问题。
本发明实施例提供的一种同义文本生成的方法,包括:
将第一类型的第一文本输入至第一子模型,得到与所述第一文本同义的第二类型的第二文本;
将所述第二文本输入至第二子模型,得到与所述第二文本同义的所述第一类型的第三文本;
根据所述第三文本和所述第一文本的差异,更新由所述第一子模型和所述第二子模型组成的文本生成模型;所述文本生成模型用于根据输入文本生成与所述输入文本同义的输出文本。
上述技术方案中,文本生成模型包括第一子模型和第二子模型,第一子模型用于将第一类型的文本转换成第二类型的文本,第二子模型用于将第二类型的文本转换成第一类型的文本,进而根据第一子模型的输入和第二子模型的输出对文本生成模型进行更新,通过将二者串联实现文本生成模型的无监督训练,从而在进行文本生成模型的训练过程中无需人工对大量文本进行关联和标注,降低人力成本。
可选的,将第一类型的第一文本输入至第一子模型之前,还包括:
隐藏第二类型的文本中的第一预设比例的文本,并根据所述第二类型的文本和隐藏所述第一预设比例的文本后的第二类型的文本,对所述第一子模型训练;
隐藏第一类型的文本中的第二预设比例的文本,并根据所述第一类型的文本和隐藏所述第二预设比例的文本后的第一类型的文本,对所述第二子模型训练。
上述技术方案中,先训练出文本生成模型的语言模型,该语言模型相当于是找到了文本的语言特征,在找到文本语言特征的基础上再进行迭代优化,以生成最终的文本生成模型,可以快速实现文本生成模型的收敛,且文本生成模型训练效果好。
可选的,所述第一子模型基于编码算法对所述第一文本编码处理,以及基于第一解码算法对所述编码处理后的第一文本解码处理,以得到所述第二文本;
所述第二子模型基于所述编码算法对所述第二文本编码处理,以及基于第二解码算法对所述编码处理后的第二文本解码处理,以得到所述第三文本。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国银联股份有限公司,未经中国银联股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911337552.0/2.html,转载请声明来源钻瓜专利网。