[发明专利]一种基于自我学习算法的数据标注方法及装置有效

申请号：	201910237084.3	申请日：	2019-03-27
公开（公告）号：	CN109830230B	公开（公告）日：	2020-09-01
发明（设计）人：	余伟;赵静芝;任丽;胡发泽;徐旭东	申请（专利权）人：	深圳平安综合金融服务有限公司上海分公司
主分类号：	G10L15/06	分类号：	G10L15/06;G06F40/205;G06F40/279
代理公司：	上海专利商标事务所有限公司 31100	代理人：	陆嘉
地址：	200040 上海市静安***	国省代码：	上海;31
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明涉及语音信号处理领域，更具体的说，涉及一种基于自我学习算法的数据标注方法及装置。该方法包括：语音识别步骤；文本对比步骤，将多篇识别文本进行对比，标注差异部分文本，并进行断句处理；自然语言处理算法评价步骤；自然语言处理算法预测步骤；数据标注步骤，参考差异部分原始识别文本与预测文本，对最优预标注文本进行多次数据标注，形成多组数据标注文本；质检步骤；自我学习步骤，将最优标注文本与对应音频信号输入语音识别引擎，语音识别引擎基于自我学习算法迭代训练语音识别。本发明方法及装置，大大节省了数据标注时长，有效提升了数据标注质量和数据标注效率，为各类人工智能产品提供训练支持，提升智能产品生产效果。
搜索关键词：	一种基于自我学习算法数据标注方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种基于自我学习算法的数据标注方法，其特征在于，包括以下步骤：语音识别步骤，语音识别引擎模块中的多个语音识别引擎接收并识别音频信号，进行音频转文字处理，输出识别文本；文本对比步骤，将输入的多篇识别文本进行对比，标注差异部分文本，并进行断句处理；自然语言处理算法评价步骤，将差异部分文本通过自然语言处理算法进行语义通顺性评价，选择最优部分，将识别文本重新拼接形成最优预标注文本，并提供差异部分原始识别文本；自然语言处理算法预测步骤，将差异部分文本通过自然语言处理算法进行预测，并提供预测文本；数据标注步骤，参考差异部分原始识别文本与预测文本，对最优预标注文本进行多次数据标注，形成多组数据标注文本；质检步骤，将多组数据标注文本进行文本对比，对差异部分文本进行质检，标注差异部分文本，形成最优标注文本；自我学习步骤，将最优标注文本与对应音频信号输入语音识别引擎，语音识别引擎基于自我学习算法迭代训练语音识别。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于深圳平安综合金融服务有限公司上海分公司，未经深圳平安综合金融服务有限公司上海分公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201910237084.3/，转载请声明来源钻瓜专利网。

上一篇：音频语料智能清洗方法、装置、存储介质和计算机设备
下一篇：会话处理方法、装置和存储介质

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L15-00 语音识别
G10L15-02 .语音识别的特征提取；识别单位的选择
G10L15-04 .分段或字极限检测
G10L15-06 .创建基准模板；训练语音识别系统，例如对说话者声音特征的适应
G10L15-08 .语音分类或检索
G10L15-20 .专门适用于不利环境

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于自我学习算法的数据标注方法及装置有效

专利文献下载