[发明专利]语料扩充方法、装置、计算机设备和存储介质有效
申请号: | 201911345982.7 | 申请日: | 2019-12-24 |
公开(公告)号: | CN111191032B | 公开(公告)日: | 2023-09-12 |
发明(设计)人: | 张文泽 | 申请(专利权)人: | 深圳追一科技有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F18/214;G06F18/22 |
代理公司: | 华进联合专利商标代理有限公司 44224 | 代理人: | 毛丹 |
地址: | 518051 广东省深圳市南山区粤海街道*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语料 扩充 方法 装置 计算机 设备 存储 介质 | ||
1.一种语料扩充方法,所述方法包括:
获取标注语料集合中标注语料对应的第一特征表达及所属的目标类别;
获取未标注语料集合中未标注语料对应的第二特征表达;
将所述未标注语料输入文本分类模型,获取输出的分类向量;所述分类向量包含所述未标注语料属于不同的类别的可信度;所述文本分类模型是通过所述标注语料训练的;
从所述分类向量中包含的属于不同的类别的可信度中,获取所述目标类别对应的可信度;
根据所述可信度、第一特征表达、第二特征表达确定所述未标注语料与标注语料之间的相似度的操作,包括:获取所述第一特征表达和所述第二特征表达之间的距离值;根据所述可信度对所述距离值进行加权处理,得到所述未标注语料与标注语料之间的相似度;
当所述相似度大于相似度阈值时,将所述未标注语料保存至所述标注语料集合。
2.根据权利要求1所述的方法,其特征在于,所述目标类别包括标注语料所属的语义理解分类或答复语料分类。
3.根据权利要求1所述的方法,其特征在于,所述相似度用于表征未标注语料与标注语料之间的差异程度。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
确定所述可信度是否大于可信度阈值;
当所述可信度超过所述可信度阈值时,则执行所述根据所述可信度、第一特征表达、第二特征表达确定所述未标注语料与标注语料之间的相似度的操作。
5.根据权利要求1所述的方法,其特征在于,所述获取未标注语料集合中未标注语料对应的第二特征表达,包括:
对所述未标注语料进行固定特征识别,得到所述未标注语料的固定特征表达;
对所述未标注语料进行动态特征识别,得到所述未标注语料的动态特征表达;
拼接所述固定特征表达与所述动态特征表达,得到所述未标注语料对应的第二特征表达。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取对话日志,所述对话日志包括问题语句和答复语句;
将所述答复语句转换为标准语句;
将所述问题语句与所述标准语句作为未标注语料保存至所述未标注语料集合。
7.根据权利要求6所述的方法,其特征在于,所述将所述问题语句与所述标准语句作为未标注语料保存至所述未标注语料集合,还包括:
剔除所述对话日志中包含的词语数量小于数量阈值的问题语句;
将剔除后不存在于所述未标注语料集合的问题语句与所述标准语句,保存至所述未标注语料集合。
8.根据权利要求1至7中任一项所述的方法,其特征在于,所述将所述未标注语料保存至所述标注语料集合,包括:
将所述未标注语料按照所述目标类别保存至所述标注语料集合。
9.一种语料扩充装置,其特征在于,所述装置包括:
第一获取模块,用于获取标注语料集合中标注语料对应的第一特征表达及所属的目标类别;
第二获取模块,用于获取未标注语料集合中未标注语料对应的第二特征表达,将所述未标注语料输入文本分类模型,获取输出的分类向量;所述分类向量包含所述未标注语料属于不同的类别的可信度;所述文本分类模型是通过所述标注语料训练的;从所述分类向量中包含的属于不同的类别的可信度中,获取所述目标类别对应的可信度;
相似度确定模块,用于获取所述第一特征表达和所述第二特征表达之间的距离值;根据所述可信度对所述距离值进行加权处理,得到所述未标注语料与标注语料之间的相似度;
保存模块,用于当所述相似度大于相似度阈值时,将所述未标注语料保存至所述标注语料集合。
10.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至8中任一项所述方法的步骤。
11.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至8中任一项所述的方法的步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳追一科技有限公司,未经深圳追一科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911345982.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:网站内容更新方法、装置、终端及存储介质
- 下一篇:一种功能教室预约方法和系统