[发明专利]语料扩充方法、装置、计算机设备和存储介质有效
申请号: | 201911345982.7 | 申请日: | 2019-12-24 |
公开(公告)号: | CN111191032B | 公开(公告)日: | 2023-09-12 |
发明(设计)人: | 张文泽 | 申请(专利权)人: | 深圳追一科技有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F18/214;G06F18/22 |
代理公司: | 华进联合专利商标代理有限公司 44224 | 代理人: | 毛丹 |
地址: | 518051 广东省深圳市南山区粤海街道*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语料 扩充 方法 装置 计算机 设备 存储 介质 | ||
本申请涉及一种语料扩充方法、装置、计算机设备和存储介质。所述方法包括:获取标注语料集合中标注语料对应的第一特征表达及所属的目标类别;获取未标注语料集合中未标注语料对应的第二特征表达,及所述未标注语料属于所述目标类别的可信度;根据所述可信度、第一特征表达、第二特征表达确定所述未标注语料与标注语料之间的相似度;当所述相似度大于相似度阈值时,将所述未标注语料保存至所述标注语料集合。采用本方法可以实现标注语料的自动添加,提高语料扩充的效率。
技术领域
本申请涉及计算机技术领域,特别是涉及一种语料扩充方法、装置、计算机设备和计算机可读存储介质。
背景技术
随着计算机技术的快速发展,自然语言处理技术的应用越来越广泛。目前,自然语言处理技术主要应用于语音交互、问答系统、聊天机器人、设备控制等场景。为了提高自然语言处理的准确性,通常需要采用大量的标注语料训练文本分类模型,以使训练的文本分类模型可以根据输入文本输出准确的语义理解分类。然而,标注语料需要花费大量的人工精力进行筛选和标注,存在语料扩充效率低下的问题。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提供语料扩充效率的语料扩充方法、装置、计算机设备和计算机可读存储介质。
一种语料扩充方法,所述方法包括:
获取标注语料集合中标注语料对应的第一特征表达及所属的目标类别;
获取未标注语料集合中未标注语料对应的第二特征表达,及所述未标注语料属于所述目标类别的可信度;
根据所述可信度、第一特征表达、第二特征表达确定所述未标注语料与标注语料之间的相似度;
当所述相似度大于相似度阈值时,将所述未标注语料保存至所述标注语料集合。
在其中一个实施例中,所述根据所述可信度、第一特征表达、第二特征表达确定所述未标注语料与标注语料之间的相似度,还包括:
获取所述第一特征表达和所述第二特征表达之间的距离值;
根据所述可信度对所述距离值进行加权处理,得到所述未标注语料与标注语料之间的相似度。
在其中一个实施例中,所述获取所述未标注语料属于所述目标类别的可信度,包括:
将所述未标注语料输入文本分类模型,获取输出的分类向量;
所述分类向量包含所述未标注语料属于不同的类别的可信度;
从所述分类向量中获取所述目标类别对应的可信度。
在其中一个实施例中,所述根据所述可信度、第一特征表达、第二特征表达确定所述未标注语料与标注语料之间的相似度之前,还包括:
确定所述可信度是否大于可信度阈值;
当所述可信度超过所述可信度阈值时,则执行所述根据所述可信度、第一特征表达、第二特征表达确定所述未标注语料与标注语料之间的相似度的操作。
在其中一个实施例中,所述获取未标注语料集合中未标注语料对应的第二特征表达,包括:
对所述未标注语料进行固定特征识别,得到所述未标注语料的固定特征表达;
对所述未标注语料进行动态特征识别,得到所述未标注语料的动态特征表达;
拼接所述固定特征表达与所述动态特征表达,得到所述未标注语料对应的第二特征表达。
在其中一个实施例中,还包括:
获取对话日志,所述对话日志包括问题语句和答复语句;将所述答复语句转换为标准语句;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳追一科技有限公司,未经深圳追一科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911345982.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:网站内容更新方法、装置、终端及存储介质
- 下一篇:一种功能教室预约方法和系统