[发明专利]一种文本生成方法和装置有效
申请号: | 202010381139.0 | 申请日: | 2020-05-07 |
公开(公告)号: | CN111563375B | 公开(公告)日: | 2021-04-09 |
发明(设计)人: | 吴帅;李健;武卫东 | 申请(专利权)人: | 北京捷通华声科技股份有限公司 |
主分类号: | G06F40/284 | 分类号: | G06F40/284;G06F40/30 |
代理公司: | 北京润泽恒知识产权代理有限公司 11319 | 代理人: | 莎日娜 |
地址: | 100193 北京市海淀区东北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 生成 方法 装置 | ||
1.一种文本生成方法,其特征在于,所述方法包括:
获取第一文本语料中的第一分词;
在所述第一分词与预设特征匹配的情况下,将所述第一分词替换为所述预设特征对应的特征标记,获得第二文本语料;其中,所述预设特征包括:所述第一分词对应的类别;所述类别包括:词性、感情色彩、来源或在所述第一文本语料中的成分中的一种;
获取所述第一文本语料中所述第一分词对应的第一词向量;
获取所述第二文本语料中所述第一分词和所述特征标记对应的第一特征向量;
将所述第一词向量和所述第一特征向量输入文本生成模型中,获得输出的目标词向量,所述目标词向量是由所述文本生成模型根据目标语义结构以及所述第一特征向量对所述第一词向量进行组合得到;
根据所述目标词向量获得目标文本语料。
2.根据权利要求1所述的方法,其特征在于,所述文本生成模型通过如下步骤训练得到,包括:
获取第三文本语料中的第二分词,所述第三文本语料包括至少一种目标语义结构的文本语料;
在所述第二分词与所述预设特征匹配的情况下,将所述第二分词替换为所述预设特征对应的所述特征标记,获得第四文本语料;
获取所述第三文本语料中所述第二分词对应的第二词向量;
获取所述第四文本语料中所述第二分词和所述特征标记对应的第二特征向量;
根据所述第二词向量和所述第二特征向量进行模型训练,得到所述文本生成模型。
3.根据权利要求1所述的方法,其特征在于,所述将所述第一词向量和所述第一特征向量输入文本生成模型中,获得输出的目标词向量,包括:
将所述第一词向量和所述第一特征向量输入所述文本生成模型中,确定两种以上目标语义结构的词向量组合,以及每一种词向量组合的概率;
将所述词向量组合根据所述概率排序;
根据所述排序确定所述文本生成模型输出的所述目标词向量。
4.根据权利要求1所述的方法,其特征在于,所述在所述第一分词与预设特征匹配的情况下,将所述第一分词替换为所述预设特征对应的特征标记,获得第二文本语料之前,还包括
确定所述第一文本语料对应的至少一个预设特征,所述预设特征根据特征标注、无监督聚类、半监督聚类中的至少一种方法确定得到。
5.根据权利要求1所述的方法,其特征在于,所述获取所述第一文本语料中所述第一分词对应的第一词向量,包括:
对所述第一文本语料中的每个第一分词构建对应的数组,获得第一词向量。
6.根据权利要求1所述的方法,其特征在于,所述获取所述第二文本语料中所述第一分词和所述特征标记对应的第一特征向量,包括:
将所述第二文本语料中的每个第一分词置为初始值,并获取所述第二文本语料中的每个特征标记对应的特征向量,获得第一特征向量。
7.一种文本生成装置,其特征在于,所述装置包括:
分词模块,用于获取第一文本语料中的第一分词;
标记模块,用于在所述第一分词与预设特征匹配的情况下,将所述第一分词替换为所述预设特征对应的特征标记,获得第二文本语料;其中,所述预设特征包括:所述第一分词对应的类别;所述类别包括:词性、感情色彩、来源或在所述第一文本语料中的成分中的一种;
第一向量模块,用于获取所述第一文本语料中所述第一分词对应的第一词向量;
第二向量模块,用于获取所述第二文本语料中所述第一分词和所述特征标记对应的第一特征向量;
模型输入模块,用于将所述第一词向量和所述第一特征向量输入文本生成模型中,获得输出的目标词向量,所述目标词向量是由所述文本生成模型根据目标语义结构以及所述第一特征向量对所述第一词向量进行组合得到;
文本获取模块,用于根据所述目标词向量获得目标文本语料。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京捷通华声科技股份有限公司,未经北京捷通华声科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010381139.0/1.html,转载请声明来源钻瓜专利网。