[发明专利]命名实体识别方法、装置、设备及介质在审
申请号: | 202010269365.X | 申请日: | 2020-04-08 |
公开(公告)号: | CN113496122A | 公开(公告)日: | 2021-10-12 |
发明(设计)人: | 刘思蒙;干小丹 | 申请(专利权)人: | 中移(上海)信息通信科技有限公司;中国移动通信集团有限公司 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/205;G06F16/35 |
代理公司: | 北京东方亿思知识产权代理有限责任公司 11258 | 代理人: | 彭琼 |
地址: | 201260 上海市浦东新区中国(*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 命名 实体 识别 方法 装置 设备 介质 | ||
本发明实施例提供一种命名实体识别方法、装置、设备及介质。该方法包括:获取第一训练数据集和第二训练数据集;对第一训练数据集进行字符级预处理、实体级预处理、短语级预处理,得到第三训练数据集,基于第一训练数据集构建句子正样本和句子负样本,得到第四训练数据集;利用第三训练数据集和第四训练数据集进行训练,得到Transformer语言模型;对第二训练数据集进行字符级预处理,得到第五训练数据集;将第五训练数据集中的文本语料数据输入到Transformer语言模型,得到标注序列,根据标注序列训练条件随机场CRF模型,得到命名实体识别模型;利用命名实体识别模型识别待识别数据,得到命名实体识别结果。通过本发明实施例能够提高实体识别准确率。
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种命名实体识别方法、装置、设备和计算机可读存储介质。
背景技术
命名实体识别(Named Entity Recognition,NER)是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等,为关系抽取、问答系统、句法分析、机器翻译、信息检索等任务做铺垫,在自然语言处理技术中占有重要地位。
但是,目前的技术对语料库的依赖比较大,而可以用来建设和评估命名实体识别系统的大规模通用语料库又比较少,特征抽取能力不够强,未考虑先验知识,不能有效的提升句法和语义的表达信息。
发明内容
本发明实施例提供了一种命名实体识别方法、装置、设备和计算机可读存储介质,能够基于命名实体识别模型进行命名实体识别,更有效的利用上下文内容识别出实体标签,提高实体识别准确率。
第一方面,本发明实施例提供一种命名实体识别模型训练方法,命名实体识别模型用于识别目标领域的文本语料数据的命名实体,该方法包括:获取第一训练数据集和第二训练数据集,其中,第一训练数据集包括至少一种领域的文本语料数据,第二训练数据集包括目标领域的文本语料数据;对第一训练数据集进行字符级预处理、实体级预处理、短语级预处理,得到第三训练数据集,以及基于第一训练数据集构建句子正样本和句子负样本,得到第四训练数据集;利用第三训练数据集和第四训练数据集进行训练,得到Transformer语言模型;对第二训练数据集进行字符级预处理,得到第五训练数据集;将第五训练数据集中的文本语料数据输入到Transformer语言模型,得到标注序列,根据标注序列训练条件随机场(Conditional Random Fields,CRF)模型,得到命名实体识别模型。
在第一方面的一些可实现方式中,对第一训练数据集进行字符级预处理、实体级预处理、短语级预处理,得到第三训练数据集,包括:对第一训练数据集中的文本语料数据进行字符级、实体级、短语级三种不同层级的切分;当不同层级切分后的文本语料数据的字符数不满足预设字符数时,调整不同层级切分后的文本语料数据的字符数满足预设字符数;随机选择字符级、实体级、短语级对应层级中满足预设字符数的文本语料数据中预设比例的字符数,并将选中的字符数通过掩码(Mask)进行遮盖,得到第三训练数据集。
在第一方面的一些可实现方式中,基于第一训练数据集构建句子正样本和句子负样本,得到第四训练数据集,包括:根据第一训练数据集中的文本语料数据构建句子对正样本和句子对负样本,其中,句子对正样本包括具有上下文关系的两个句子,句子对负样本包括不具有上下文关系的两个句子;当句子对正样本和句子对负样本中句子的字符数不满足预设字符数时,调整句子对正样本和句子对负样本中句子的字符数满足预设字符数;连接满足预设字符数的句子对正样本中的两个句子,得到句子正样本,以及连接满足预设字符数的句子对负样本中的两个句子,得到句子负样本。
在第一方面的一些可实现方式中,利用第三训练数据集和第四训练数据集进行训练,包括:基于第三训练数据集中遮盖后的字符级的文本语料数据、遮盖后的实体级的文本语料数据、遮盖后的短语级的文本语料数据以及第四训练数据集中的句子正样本和句子负样本进行训练。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中移(上海)信息通信科技有限公司;中国移动通信集团有限公司,未经中移(上海)信息通信科技有限公司;中国移动通信集团有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010269365.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:端子连接结构、显示单元及显示器
- 下一篇:一种乙二醇单丁醚的制备方法