[发明专利]实体识别模型的训练、实体识别方法、装置及终端设备有效
申请号: | 202010763274.1 | 申请日: | 2020-07-31 |
公开(公告)号: | CN111914561B | 公开(公告)日: | 2023-06-30 |
发明(设计)人: | 袁晟君;李宸;庞帅;付博 | 申请(专利权)人: | 建信金融科技有限责任公司 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/242 |
代理公司: | 北京品源专利代理有限公司 11332 | 代理人: | 孟金喆 |
地址: | 200120 上海市浦东新区中国(*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 实体 识别 模型 训练 方法 装置 终端设备 | ||
本发明公开了实体识别模型的训练、实体识别方法、装置及终端设备。所述方法包括:获取文本信息集和预先构建的种子词典,所述种子词典中包括有所述文本信息集所包括文本信息中的实体;将所述文本信息集拆分为至少两个子信息集;根据所述种子词典和每个子信息集,进行实体识别模型训练和预测的迭代,每轮迭代后的识别结果用于更新所述种子词典;将迭代结束后的实体识别模型确定为训练好的实体识别模型。利用该方法,避免了无法对新的实体的识别,提升了实体识别的准确率。
技术领域
本发明实施例涉及计算机技术领域,尤其涉及实体识别模型的训练、实体识别方法、装置及终端设备。
背景技术
实体是指在文本中具有特定意义的词语信息,目前学术上所涉及的实体一般包括3大类和7小类,其中3大类包括实体类、时间类和数字类,7小类包括人名、地名、组织机构名、时间、日期、货币和百分比。
除了学术领域定义的3大类和7小类实体类型,在各个技术领域均会存在一类实体,该实体为该领域下有意义的新的实体。如在金融领域存在各类金融实体,如金融机构名、金融产品名称等。
目前,在对文本信息中实体进行识别时,缺乏对各领域下有意义的新的实体的识别。
发明内容
本发明实施例提供了实体识别模型的训练、实体识别方法、装置及终端设备,避免了无法对新的实体的识别,提升了实体识别的准确率。
第一方面,本发明实施例提供了一种实体识别模型的训练方法,包括:
获取文本信息集和预先构建的种子词典,所述种子词典中包括有所述文本信息集所包括文本信息中的实体;
将所述文本信息集拆分为至少两个子信息集;
根据所述种子词典和每个子信息集,进行实体识别模型训练和预测的迭代,每轮迭代后的识别结果用于更新所述种子词典;
将迭代结束后的实体识别模型确定为训练好的实体识别模型。
进一步地,所述根据所述种子词典和每个子信息集,进行实体识别模型训练和预测的迭代,包括:
从各所述子信息集中依次选取一子信息集作为训练信息集;
采用所述种子词典和所述训练信息集对实体识别模型进行训练;
将预测信息集输入至本次训练后的实体识别模型,得到预测实体,所述预测信息集为从各所述子信息集中选取的除所述训练信息集外的子信息集;
确定所述预测实体中的目标实体,所述目标实体为人工对所述预测实体筛查后的实体;
将所述目标实体添加至所述种子词典中,以更新所述种子词典;
继续进行训练信息集的选取操作,直至满足迭代结束条件。
进一步地,构建所述文本信息集的操作包括:
使用同类型的实体替换所述文本信息集中所包括的实体,并将新形成的文本信息添加至所述文本信息集中;
其中,所述同类型的实体包含于所述种子词典中。
进一步地,新形成的文本信息的个数基于实体替换的倍数确定。
进一步地,该方法在迭代设定次数后,还包括:在所述文本信息集中添加噪声信息,所述噪声信息为包括噪声实体的文本信息。
进一步地,所述在所述文本信息集中添加噪声信息,包括:
根据所述文本信息集所包括文本信息的实体,确定噪声实体;
采用确定出的噪声实体替换对应文本信息中的实体,得到噪声信息;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于建信金融科技有限责任公司,未经建信金融科技有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010763274.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种室温制备聚合物点的方法及应用
- 下一篇:一种螺母拧紧角度仪