[发明专利]实体识别模型生成方法、装置及计算机可读存储介质在审
申请号: | 202011422415.X | 申请日: | 2020-12-08 |
公开(公告)号: | CN112420205A | 公开(公告)日: | 2021-02-26 |
发明(设计)人: | 何国平;甄化春;王旭英;杨逸文;尹伟东;郭亚强 | 申请(专利权)人: | 医惠科技有限公司 |
主分类号: | G16H50/70 | 分类号: | G16H50/70;G16H50/50;G06K9/62 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 刘新雷 |
地址: | 310053 浙江省杭州市滨*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 实体 识别 模型 生成 方法 装置 计算机 可读 存储 介质 | ||
1.一种实体识别模型生成方法,其特征在于,包括:
获取实体识别模型的训练样本集,所述训练样本集包括多个已标注文本医疗数据和多个未标注文本医疗数据;所述实体识别模型包括生成器和判别器;
预先基于深度学习方法,利用所述已标注文本医疗数据训练所述生成器;利用所述生成器的文本医疗数据标签预测结果和所述已标注文本医疗数据训练所述判别器;利用所述已标注文本医疗数据和所述未标注文本医疗数据同时训练所述生成器,以使所述判别器无法确定预测的标签是正确还是错误;不断训练所述生成器和所述判别器直至满足所述生成器的模型训练截止条件。
2.根据权利要求1所述的实体识别模型生成方法,其特征在于,所述不断训练所述生成器和所述判别器直至满足所述生成器的模型训练截止条件之后,还包括:
将所述训练样本集中的已标注文本医疗数据输入至训练好的判别器中,得到每条已标注文本医疗数据的标注准确度分数;
从各已标注文本医疗数据中选择标注准确度分数低于预设设置的准确度阈值的候选文本医疗数据;
从各候选文本医疗数据中选择标签标注错误的文本医疗数据。
3.根据权利要求2所述的实体识别模型生成方法,其特征在于,所述从各候选文本医疗数据中选择标签标注错误的文本医疗数据包括:
将各候选文本医疗数据发送至预先绑定的用户端,以展示给用户进行人工筛查;
根据用户反馈的筛选结果从各候选文本医疗数据中确定标签标注错误的文本医疗数据。
4.根据权利要求1所述的实体识别模型生成方法,其特征在于,所述不断训练所述生成器和所述判别器直至满足所述生成器的模型训练截止条件之后,还包括:
根据所述生成器和所述判别器的输出结果从所述训练样本数据集中选择待标注文本医疗数据;
根据所述待标注文本医疗数据的标注结果更新所述训练样本集。
5.根据权利要求4所述的实体识别模型生成方法,其特征在于,所述根据所述待标注文本医疗数据的标注结果更新所述训练样本集包括:
将各待标注文本医疗数据发送至预先绑定的用户端,以展示给用户进行人工标注;
根据用户反馈的人工标注结果将各待标注文本医疗数据更新为已标注文本医疗数据。
6.根据权利要求4所述的实体识别模型生成方法,其特征在于,所述根据所述生成器和所述判别器的输出结果从所述训练样本数据集中选择待标注文本医疗数据为:
根据第n次训练的实体识别模型中的生成器和判别器的输出结果,基于优先选择条件从所述训练样本数据集中选择待标注文本医疗数据,所述优先选择条件为:
式中,1≤n≤m且为正整数,m为所述实体识别模型的训练总次数,U为未标注文本医疗数据,x为一条文本医疗数据,xU为一条未标注文本医疗数据,T(.)为待标注文本医疗数据,L为已标注文本医疗数据,V为文本医疗数据的隐含变量,vU对应一个未标注文本医疗数据xU的隐含变量,VL为所有标注的文本医疗数据的隐含变量,sim(vU,VL)为所述判别器的输出,α、γ为设定的阈值,P(y*|xU)为对应未标注文本医疗数据xU的标签y*的概率。
7.一种实体识别模型生成装置,其特征在于,包括:
样本数据集获取模块,用于获取实体识别模型的训练样本集,所述训练样本集包括多个已标注文本医疗数据和多个未标注文本医疗数据;所述实体识别模型包括生成器和判别器;
模型训练模块,用于预先基于深度学习方法,利用所述已标注文本医疗数据训练得到生成器;利用所述生成器的文本医疗数据标签预测结果和所述已标注文本医疗数据训练所述判别器;利用所述已标注文本医疗数据和所述未标注文本医疗数据同时训练所述生成器,以使所述判别器无法确定预测的标签是正确还是错误;不断训练所述生成器和所述判别器直至满足所述生成器的模型训练截止条件。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于医惠科技有限公司,未经医惠科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011422415.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:黄麻布染色设备
- 下一篇:一种有轨电车出入车场的配线结构