[发明专利]一种样本生成方法、装置及计算机可读介质有效
申请号: | 201910297962.0 | 申请日: | 2019-04-12 |
公开(公告)号: | CN110096572B | 公开(公告)日: | 2023-09-15 |
发明(设计)人: | 宫雪 | 申请(专利权)人: | 成都美满科技有限责任公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/332;G06F40/289;G06F40/30;G06F18/214 |
代理公司: | 深圳市兰锋盛世知识产权代理有限公司 44504 | 代理人: | 罗炳锋;熊永强 |
地址: | 610000 四川省成都市中国(四川*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 样本 生成 方法 装置 计算机 可读 介质 | ||
本申请实施例公开了一种样本生成方法、装置及计算机可读介质,涉及关键词提取以及文本生成,其中方法包括:提取历史答案中的答案语句的关键词词组,根据所述历史答案的评分标准确定所述关键词词组的关键词评分权重;获取答案样本参数,所述答案样本参数包括答案样本的评分范围;根据所述关键词评分权重确定关键词词组组合方案的评分在所述答案样本的评分范围内的关键词词组组合方案;根据所述组合方案生成答案模板,生成与所述答案模板语义相近的答案样本。本申请实施例可以通过对已有的历史答案语句提取关键词,然后通过用户输入的样本参数和历史答案的关键词词组得到样本模板,最后通过样本模板自动生成大量与样本模板语义相近的答案样本。
技术领域
本申请涉及计算机技术领域,尤其涉及一种样本生成方法、装置及计算机可读介质。
背景技术
在人工智能模型训练过程中需要大量的训练样本和测试样本。然而对于训练样本和测试样本的获取,目前一般是通过互联网收集样本数据,然后对样本数据进行标注得到上述训练样本和测试样本。以答案智能评分模型为例,在训练该答案智能评分模型之前,训练样本的获取一般是通过在网络上对一个问题答案进行收集,或者采用人工对问题进行作答并记录答案,当答案收集到之后,还需要对收集到的答案进行评分(可以人工评分或成熟的评分模型进行评分,即对样本数据进行标注)之后才能形成训练样本。
但是,采用传统的方法获取训练样本需要人为接入导致人工成本高,效率低;另外上述获取训练样本的方法很难做到全面覆盖。
发明内容
本申请实施例提供一种样本生成方法,可基于少量的历史答案自动生成大量的答案样本。
第一方面,本申请实施例提供了一种样本生成方法,该方法包括:
提取历史答案中的答案语句的关键词词组,根据所述历史答案的评分标准确定所述关键词词组的关键词评分权重;
获取答案样本参数,所述答案样本参数包括答案样本的评分范围;
根据所述关键词评分权重确定关键词词组组合方案的评分在所述答案样本的评分范围内的关键词词组组合方案;
根据所述组合方案生成答案模板,生成与所述答案模板语义相近的答案样本。
作为一种可选的实施方式,所述提取历史答案中的答案语句的关键词词组,包括:
对所述历史答案中的答案语句进行分词处理,得到分词和与分词对应的分词向量;
按照预设的分词向量标签分类方法确定所述分词向量所对应的分词的分类标签;其中,所述分类标签用于指示所述分词是否为关键词或关键词中的预设部分;
将所述分词的分类标签为预设标签的分词确定为所述关键词词组。
作为一种可选的实施方式,所述按照预设的分词向量标签分类方法确定所述分词向量所对应的分词的分类标签,包括:
将所述分词向量输入至已训练好的双向长短期记忆(Long-Short Term Memory,BLSTM)网络模型进行分类,输出所述分词向量所对应的分词的标签概率向量;
根据所述标签概率向量,对所述分词进行条件随机场(conditional randomfield,CRF)解码,得到所述分词对应的分类标签。
作为一种可选的实施方式,所述根据所述历史答案的评分标准确定所述关键词词组的关键词词组评分权重,包括:
获取所述历史答案的评分标准;
根据所述评分标准确定所述历史答案的答案语句的语句评分权重,将所述语句评分权重确定为所述关键词词组的关键词评分权重。
作为一种可选的实施方式,所述根据所述组合方案生成答案模板,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都美满科技有限责任公司,未经成都美满科技有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910297962.0/2.html,转载请声明来源钻瓜专利网。