[发明专利]术语识别模型的建立方法及装置、术语识别方法及装置在审
申请号: | 202010343731.1 | 申请日: | 2020-04-27 |
公开(公告)号: | CN113642329A | 公开(公告)日: | 2021-11-12 |
发明(设计)人: | 顾淑琴;张昱琪;施杨斌;陆军 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/242 |
代理公司: | 北京鼎佳达知识产权代理事务所(普通合伙) 11348 | 代理人: | 任媛;刘铁生 |
地址: | 英属开曼群岛大开*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 术语 识别 模型 建立 方法 装置 | ||
1.一种术语识别模型的建立方法,其特征在于,所述方法包括:
获取第一训练集,所述第一训练集包括基于预设自动标注方法对第一语料进行术语标注后得到的标注数据;
删除所述第一训练集中一定比例的术语标注,得到第二训练集;
基于所述第一训练集进行模型训练得到第一术语识别模型,以及基于所述第二训练集进行模型训练得到第二术语识别模型;
根据利用所述第一术语识别模型和所述第二术语识别模型分别对特定数据集进行术语识别得到的损失差异,从所述特定数据集中筛选出满足术语标注质量要求的标注数据作为第三训练集;所述特定数据集是利用所述预设自动标注方法对第二语料进行术语标注后的标注数据;所述第一语料与所述第二语料属于同一个语料库;
利用所述第三训练集进行模型训练得到最终所需的术语识别模型。
2.根据权利要求1所述的方法,其特征在于,所述根据利用所述第一术语识别模型和所述第二术语识别模型分别对特定数据集进行术语识别得到的损失差异,从所述特定数据集中筛选出满足术语标注质量要求的标注数据作为第三训练集包括:
分别使用所述第一术语识别模型和所述第二术语识别模型对所述特定数据集中标注数据所对应的原始语句进行术语识别,并将识别出的术语进行标注;所述原始语句为在基于所述预设自动标注方法进行术语标注之前的语句;
针对同一个原始语句,分别计算所述第一术语识别模型的标注损失和所述第二术语识别模型的标注损失,并计算所述第一术语识别模型的标注损失与所述第二术语识别模型的标注损失之差,得到所述损失差异;
从所述特定数据集中筛选出所述损失差异大于预设阈值的标注数据作为所述第三训练集。
3.根据权利要求2所述的方法,其特征在于,针对同一个原始语句,分别计算所述第一术语识别模型的标注损失和所述第二术语识别模型的标注损失包括:
针对同一个原始语句,利用预设损失函数,对所述第一术语识别模型的术语标注结果和所述特定数据集中的术语标注结果进行计算,得到所述第一术语识别模型的标注损失;
针对同一个原始语句,利用所述预设损失函数,对所述第二术语识别模型的术语标注结果和所述特定数据集中的术语标注结果进行计算,得到所述第二术语识别模型的标注损失。
4.根据权利要求1所述的方法,其特征在于,若所述预设自动标注方法所使用的术语词典被更新,则所述方法还包括:
基于更新后的术语词典,利用所述预设自动标注方法对所述语料库重新进行术语标注;
从重新术语标注后的标注数据中筛选出满足所述术语标注质量要求的标注数据;
基于筛选出的标注数据对所述最终所需的术语识别模型进行更新。
5.根据权利要求1所述的方法,其特征在于,所述删除所述第一训练集中一定比例的术语标注,得到第二训练集包括:
随机删除所述第一训练集中所述一定比例的术语标注,得到所述第二训练集;
或者,确定所述第一训练集中每个术语所属的领域,并分别针对每个领域随机删除所述一定比例的术语标注,得到所述第二训练集。
6.根据权利要求1-5中任一项所述的方法,其特征在于,所述预设自动标注方法为远程监督方法。
7.一种术语识别方法,其特征在于,所述方法包括:
获取用户数据信息;
基于术语识别模型对所述用户数据信息中的商品名称进行识别;所述术语识别模型是采用权利要求1-6中任一项所述的术语识别模型的建立方法获得的;
在所述用户数据信息中标注出商品名称;
通过对标注商品名称的用户数据信息进行分析,确定用户偏好,并根据所述用户偏好向所述用户推荐商品。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010343731.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:数码产品保护壳
- 下一篇:一种图像修复方法及装置