[发明专利]术语识别模型的建立方法及装置、术语识别方法及装置在审
申请号: | 202010343731.1 | 申请日: | 2020-04-27 |
公开(公告)号: | CN113642329A | 公开(公告)日: | 2021-11-12 |
发明(设计)人: | 顾淑琴;张昱琪;施杨斌;陆军 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/242 |
代理公司: | 北京鼎佳达知识产权代理事务所(普通合伙) 11348 | 代理人: | 任媛;刘铁生 |
地址: | 英属开曼群岛大开*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 术语 识别 模型 建立 方法 装置 | ||
本发明公开一种术语识别模型的建立方法及装置、术语识别方法及装置,涉及人工智能技术领域,能够解决现有识别术语准确性较低的问题。本发明的方法主要包括:获取第一训练集;删除第一训练集中一定比例的术语标注,得到第二训练集;基于第一训练集进行模型训练得到第一术语识别模型,以及基于第二训练集进行模型训练得到第二术语识别模型;根据利用第一术语识别模型和第二术语识别模型分别对特定数据集进行术语识别得到的损失差异,从特定数据集中筛选出满足术语标注质量要求的标注数据作为第三训练集;利用第三训练集进行模型训练得到最终所需的术语识别模型。本发明主要适用于基于神经网络建立术语识别模型的场景中。
技术领域
本发明涉及人工智能技术领域,特别是涉及一种术语识别模型的建立方法及装置、术语识别方法及装置。
背景技术
术语是在特定学科领域用来表示概念的称谓的集合。例如在穿着领域有连衣裙、高跟鞋、帽子等术语。术语识别在自然语言处理领域具有研究的意义,特别是在机器翻译和跨语言信息检索中有广泛的应用前途。
目前术语识别的方法主要包括人工识别方法和自动识别方法。其中,为了实现术语的自动识别,需要先根据术语词典对语料进行术语标注得到标注数据,再随机选取部分标注数据作为训练样本进行模型训练,得到术语识别模型,最后利用该术语识别模型对待识别的语句进行术语识别。但是,由于术语词典是根据经验积累的术语集合,所以基于术语词典不一定能够将语料中所有的术语都标注出来,从而通过随机选取部分标注数据得到的训练样本本身是存在一定误差的,进而导致训练出来的术语识别模型识别术语的准确性较低。
发明内容
有鉴于此,本发明提供的术语识别模型的建立方法及装置、术语识别方法及装置,其目的在于解决现有识别术语准确性较低的问题。
第一方面,本发明提供了一种术语识别模型的建立方法,所述方法包括:
获取第一训练集,所述第一训练集包括基于预设自动标注方法对第一语料进行术语标注后得到的标注数据;
删除所述第一训练集中一定比例的术语标注,得到第二训练集;
基于所述第一训练集进行模型训练得到第一术语识别模型,以及基于所述第二训练集进行模型训练得到第二术语识别模型;
根据利用所述第一术语识别模型和所述第二术语识别模型分别对特定数据集进行术语识别得到的损失差异,从所述特定数据集中筛选出满足术语标注质量要求的标注数据作为第三训练集;所述特定数据集是利用所述预设自动标注方法对第二语料进行术语标注后的标注数据;所述第一语料与所述第二语料属于同一个语料库;
利用所述第三训练集进行模型训练得到最终所需的术语识别模型。
可选的,所述根据利用所述第一术语识别模型和所述第二术语识别模型分别对特定数据集进行术语识别得到的损失差异,从所述特定数据集中筛选出满足术语标注质量要求的标注数据作为第三训练集包括:
分别使用所述第一术语识别模型和所述第二术语识别模型对所述特定数据集中标注数据所对应的原始语句进行术语识别,并将识别出的术语进行标注;所述原始语句为在基于所述预设自动标注方法进行术语标注之前的语句;
针对同一个原始语句,分别计算所述第一术语识别模型的标注损失和所述第二术语识别模型的标注损失,并计算所述第一术语识别模型的标注损失与所述第二术语识别模型的标注损失之差,得到所述损失差异;
从所述特定数据集中筛选出所述损失差异大于预设阈值的标注数据作为所述第三训练集。
可选的,针对同一个原始语句,分别计算所述第一术语识别模型的标注损失和所述第二术语识别模型的标注损失包括:
针对同一个原始语句,利用预设损失函数,对所述第一术语识别模型的术语标注结果和所述特定数据集中的术语标注结果进行计算,得到所述第一术语识别模型的标注损失;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010343731.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:数码产品保护壳
- 下一篇:一种图像修复方法及装置