[发明专利]一种多模型融合的语料生成方法及装置在审

申请号：	202010852854.8	申请日：	2020-08-22
公开（公告）号：	CN112949674A	公开（公告）日：	2021-06-11
发明（设计）人：	田东坡;巩乐;朱燕青;闵宇翔	申请（专利权）人：	上海昌投网络科技有限公司
主分类号：	G06K9/62	分类号：	G06K9/62;G06F40/20
代理公司：	北京力量专利代理事务所(特殊普通合伙) 11504	代理人：	何东明
地址：	200135 上海市浦东新区自由贸易试验区***	国省代码：	上海;31
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种模型融合语料生成方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种多模型融合的语料生成方法及装置，其特征在于：包括以下步骤：

S1、采集待处理问题的训练文本集；

S2、构建unilm预训练数据集；

S3、通过Bert-encoder获取sentence embedding计算相似度，并把相似度最高的前300个问题的提供给人工标注，标注待扩充问题的对应的相似问题，所述相似问题作为待补充问题的对应的扩充语料；

S4、对人工标注数据集使用随机采样、分层采样，基于Transformer和unilm调整参数；

S5、接收的用户输入的问题并对预测出待扩充语料，根据模型的效果BLEAURT，取BLEAURT大于预设数值的前30个的语料，获得待扩充的语料；

S6、根据待扩充的语料生成对应的多样性的扩充语料，获得最终语料扩充结果。

2.如权利要求1所述的一种多模型融合的语料生成方法，其特征在于：所述unilm预训练数据集包括1/3的Bidirection LM、1/3的L-to-R或R-to-L LM，1/3的Seq-to-Seq LM。

3.如权利要求1所述的一种多模型融合的语料生成方法，其特征在于：所述预设数值为0.7。

4.一种多模型融合的语料生成装置，其特征在于：包括：

理财教育语料数据库，其用于储存预输入的FAQ语料数据，并生成训练文本集，根据训练文本集构建可用于unilm预训练的数据集；

相似度计算模块，其用于通过Bert-encoder获取sentence embedding计算相似度，并把相似度最高的300条问题输出；

人工标注模块，其用于人工标注300条问题中的待扩充问题，并标注待扩充问题的对应的相似问题，所述相似问题作为待补充问题的对应的扩充语料；

预测模块，其用于对人工标注数据集使用随机采样、分层采样，基于Transformer和unilm调整参数，还用于接收的用户输入的问题并对预测出待扩充语料，根据模型的效果BLEAURT，取BLEAURT大于预设数值的前30个的语料，获得待扩充的语料，其用于生成多样性的扩充语料，获得最终语料扩充结果。

5.如权利要求4所述的一种多模型融合的语料生成装置，其特征在于：所述unilm预训练数据集包括1/3的Bidirection LM、1/3的L-to-R或R-to-L LM，1/3的Seq-to-Seq LM。

6.如权利要求4所述的一种多模型融合的语料生成装置，其特征在于：所述预设数值为0.7。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于上海昌投网络科技有限公司，未经上海昌投网络科技有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202010852854.8/1.html，转载请声明来源钻瓜专利网。

专利分类

专利文献下载