[发明专利]一种文本生成方法和装置有效
申请号: | 202010381139.0 | 申请日: | 2020-05-07 |
公开(公告)号: | CN111563375B | 公开(公告)日: | 2021-04-09 |
发明(设计)人: | 吴帅;李健;武卫东 | 申请(专利权)人: | 北京捷通华声科技股份有限公司 |
主分类号: | G06F40/284 | 分类号: | G06F40/284;G06F40/30 |
代理公司: | 北京润泽恒知识产权代理有限公司 11319 | 代理人: | 莎日娜 |
地址: | 100193 北京市海淀区东北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 生成 方法 装置 | ||
本发明提供了一种文本生成方法和装置,涉及自然语言技术领域。本发明提供的文本生成方法和装置,通过在第一文本语料中确定第一分词,并在第一分词与预设特征匹配的情况下,将第一分词替换为预设特征对应的特征标记获得第二文本语料,再获取第一文本语料中的第一分词对应的第一词向量,第二文本语料中第一分词和特征标记对应的第一特征向量,此时,可以将第一词向量以及第一特征向量输入文本生成模型中,获取输出的目标语义结构的目标词向量,再根据目标词向量获得目标文本语料。本发明实施例获得的目标文本语料中包括了需求的、完整的目标语义结构,且第一文本语料不限制获取方式,避免了扩展的目标文本语料间相似度高,扩展效果差的问题。
技术领域
本发明涉及自然语言技术领域,特别是涉及一种文本生成方法和装置。
背景技术
为了满足日益增长的命名实体识别、语音识别、语音合成、机器翻译等需求,需要文本识别模型进行文本识别。
目前,通常通过采集获得不同场景、不同领域、不同语系等的文本语料,来训练对应的文本识别模型。但是,为了保证文本识别模型得到充分训练、提升识别结果的准确率,通常需要符合模型训练要求的,大量的文本语料。而受限于采集条件,有时无法保证文本语料的数量和质量,使得文本语料稀疏,导致训练文本识别模型不能得到充分的训练。
为了扩展文本语料,现有技术通常采用加噪的方式,在原有文本语料的基础上,通过同义词替换、随机词插入、随机词删除、随机词交换等方式生成新的文本语料,但是同义词替换可能导致新文本语料与原文本语料相似度高,扩展效果差,而在文本语料中随机词插入、删除、交换等可能破坏文本语料的语义结构,文本语料的语义结构被破坏可能影响文本识别模型的训练的效率以及识别结果的准确性。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的一种文本生成方法和装置。
依据本发明的第一方面,提供了一种文本生成方法,该方法包括:
获取第一文本语料中的第一分词;
在所述第一分词与预设特征匹配的情况下,将所述第一分词替换为所述预设特征对应的特征标记,获得第二文本语料;
获取所述第一文本语料中所述第一分词对应的第一词向量;
获取所述第二文本语料中所述第一分词和所述特征标记对应的第一特征向量;
将所述第一词向量和所述第一特征向量输入文本生成模型中,获得输出的目标词向量,所述目标词向量是由所述文本生成模型根据目标语义结构以及所述第一次特征向量对所述第一词向量进行组合得到;
根据所述目标词向量获得目标文本语料。
依据本发明的第二方面,提供了一种文本生成装置,该装置包括:
分词模块,用于获取第一文本语料中的第一分词;
标记模块,用于在所述第一分词与预设特征匹配的情况下,将所述第一分词替换为所述预设特征对应的特征标记,获得第二文本语料;
第一向量模块,用于获取所述第一文本语料中所述第一分词对应的第一词向量;
第二向量模块,用于获取所述第二文本语料中所述第一分词和所述特征标记对应的第一特征向量;
模型输入模块,用于将所述第一词向量和所述第一特征向量输入文本生成模型中,获得输出的目标词向量,所述目标词向量是由所述文本生成模型根据目标语义结构以及所述第一次特征向量对所述第一词向量进行组合得到;
文本获取模块,用于根据所述目标词向量获得目标文本语料。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京捷通华声科技股份有限公司,未经北京捷通华声科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010381139.0/2.html,转载请声明来源钻瓜专利网。