[发明专利]一种实体识别方法、设备及计算机可读存储介质有效
申请号: | 202010057489.1 | 申请日: | 2020-01-19 |
公开(公告)号: | CN111259134B | 公开(公告)日: | 2023-08-08 |
发明(设计)人: | 王东升;范红杰;林凤绿;雷欣 | 申请(专利权)人: | 出门问问信息科技有限公司 |
主分类号: | G06F16/335 | 分类号: | G06F16/335;G06F16/38;G06F40/279 |
代理公司: | 北京乐知新创知识产权代理事务所(普通合伙) 11734 | 代理人: | 江宇 |
地址: | 100044 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 实体 识别 方法 设备 计算机 可读 存储 介质 | ||
1.一种实体识别方法,其特征在于,所述方法包括:
第一操作,通过实体库对指定文本进行标注,确定对应所述指定文本的训练集和测试集;所述训练集包括标注文本集和半标注文本集;所述标注文本集中的句子经过实体库的原始种子实体实现完全标注,所述半标注文本集中的句子通过原始种子实体和有效实体进行联合标注,所述测试集为未经过实体标注的句子;
第二操作,通过所述训练集对模型进行训练,基于训练获得的实体识别模型对所述测试集进行预测,筛选获得有效实体;
第三操作,将所述有效实体加入所述实体库,基于所述实体库重新确定半标注文本集;
重复循环第二操作和第三操作,获得目标实体库;
所述基于所述实体库重新确定半标注文本集,包括:
通过所述实体库对所述半标注文本集进行标注,获得标注的半标注文本集;
通过实例选择器对所述标注的半标注文本集进行选择,获得选择后的半标注文本集,所述实例选择器为奖励函数、策略函数和行为的结合;
将所述选择后的半标注文本集确定为所述第三操作中重新确定的半标注文本集。
2.根据权利要求1所述的方法,其特征在于,所述基于训练获得的实体识别模型对所述测试集进行预测,筛选获得有效实体,包括:
通过所述训练获得的实体识别模型对所述测试集进行预测,获得预测实体;
基于所述实体库对所述预测实体进行过滤,获得过滤实体;
基于约束策略对所述过滤实体进行筛选处理,得到有效实体。
3.根据权利要求2所述的方法,其特征在于,所述约束策略包括如下至少之一:用于长度约束的第一策略、用于字符约束的第二策略和用于统计约束的第三策略。
4.根据权利要求1-3任一项所述的方法,其特征在于,所述重复循环第二操作和第三操作,获得目标实体库,包括:
在当前轮第三操作结束后,判断是否满足终止条件;
当判断为满足终止条件时,将当前轮获得的实体库确定为目标实体库。
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
当判断为不满足终止条件时,执行下一轮第二操作和第三操作。
6.根据权利要求5所述的方法,其特征在于,所述终止条件为所述第二操作和第三操作的循环次数是否满足循环阈值;
或,
所述终止条件为加入所述第三操作的实体库的有效实体的数量是否满足数量阈值。
7.一种实体识别设备,其特征在于,所述设备包括:
第一操作模块,用于通过实体库对指定文本进行标注,确定对应所述指定文本的训练集和测试集;所述训练集包括标注文本集和半标注文本集;所述标注文本集中的句子经过实体库的原始种子实体实现完全标注,所述半标注文本集中的句子通过原始种子实体和有效实体进行联合标注,所述测试集为未经过实体标注的句子;
第二操作模块,用于通过所述训练集对模型进行训练,基于训练获得的实体识别模型对所述测试集进行预测,筛选获得有效实体;
第三操作模块,用于将所述有效实体加入所述实体库,基于所述实体库重新确定半标注文本集;
循环模块,用于重复循环第二操作和第三操作,获得目标实体库;
所述第三操作模块,包括:标注子模块,用于通过所述实体库对所述半标注文本集进行标注,获得标注的半标注文本集;选择子模块,用于通过实例选择器对所述标注的半标注文本集进行选择,获得选择后的半标注文本集,所述实例选择器为奖励函数、策略函数和行为的结合;第一确定子模块,用于将所述选择后的半标注文本集确定为所述第三操作的半标注文本集。
8.根据权利要求7所述的设备,其特征在于,所述第二操作模块,包括预测子模块,用于通过所述训练获得的实体识别模型对所述测试集进行预测,获得预测实体;
过滤子模块,用于基于所述实体库对所述预测实体进行过滤,获得过滤实体;
筛选子模块,用于基于约束策略对所述过滤实体进行筛选处理,得到有效实体。
9.一种计算机可读存储介质,其特征在于,所述存储介质包括一组计算机可执行指令,当所述指令被执行时用于执行权利要求1-6任一项所述的实体识别方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于出门问问信息科技有限公司,未经出门问问信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010057489.1/1.html,转载请声明来源钻瓜专利网。